ThemeRiver:可视化主题随时间的变化外文翻译资料

 2022-12-19 06:12

ThemeRiver: Visualizing Theme Changes over Time

Susan Havre, Beth Hetzler, and Lucy Nowell Battelle Pacific Northwest Division Richland, Washington 99352 USA

1 509 375-6948

{susan.havre | beth.hetzler | lucy.nowell}@pnl.gov

Abstract

ThemeRivertrade; is a prototype system that visualizes thematic variations over time within a large collection of documents. The “river” flows from left to right through time, changing width to depict changes in thematic strength of temporally associated documents. Colored “currents” flowing within the river narrow or widen to indicate decreases or increases in the strength of an individual topic or a group of topics in the associated documents. The river is shown within the context of a timeline and a corresponding textual presentation of external events.

Keywords: visualization metaphors, trend analysis, timeline

Introduction

In exploratory information visualization, one goal is to present information so that users can easily discern patterns. Patterns reveal trends, relationships, anoma- lies, and structure in the data, and may help users

Figure 1: ThemeRivertrade; uses a river metaphor to represent theme changes over time.

confirm knowledge or hypotheses. Perhaps more impor- tantly, they also raise unexpected questions leading users to new insights. The challenge is to create visuali- zations that enable users to find patterns quickly and easily. ThemeRiver, shown in Figure 1, is a prototype system designed to reveal temporal patterns in text collections.

Information visualization systems such as Envision [13], BEAD [1], LyberWorld [ 3, 4] and SPIRE [18]

represent each document or group of documents with a glyph or icon, portraying various document attributes. Various methods have been explored for showing change over time in document-centric visualizations. See Section 3 below.

However, a user may be less interested in documents themselves than in theme changes within the whole col- lection over time. For example, how did Shakespearersquo;s themes change during various periods of his life or in relation to contemporary events? Such information is difficult, if not impossible, to glean from most visuali- zations. A visualization that focuses on themes, rather than documents, could be more useful for such explora- tion.

ThemeRiver provides users with a macro-view of thematic changes in a corpus of documents over a serial dimension. It is designed to facilitate the identification of trends, patterns, and unexpected occurrence or non- occurrence of themes or topics. In our prototype, we use time as the serial dimension. We provide contextual information through a timeline and markers for co- occurring events of interest. Figure 1 shows a sample ThemeRiver visualization. This paper describes the design of ThemeRiver, walks through a sample informa- tion exploration session, and discusses results of forma- tive usability testing.

Design

Our major design goal was to provide a visualization of theme change over time. Consider using a histogram to visualize these changes. In a histogram (such as the one shown in Figure 2), each bar represents a time slice, and color variations and size within the bar represent the relative strength of themes specific to that slice. However, understanding the histogram requires users to work at integrating the themes across time because the bars are anchored to a baseline and the position of a particular theme within the bars may vary considerably.

Like a histogram, ThemeRiver uses variations in width to represent variations in strength or degree of

representation. However, it connects the strength values in adjacent time slices with smooth and continuous curves. The horizontal flow of the river represents the flow of time. Colored currents that run horizontally within the river represent themes. Each vertical section of the river corresponds to an ordered time slice.

The width of each current changes to reflect the thematic strength for each time slice. For example, in Figure 1 the theme “soviet” increases in relative strength in June 1960 as indicated by the widening of the upper bright orange current. “Soviet” loses relative strength in July and August; thus the same current nar- rows in the next two time slices. “Soviet” then increases significantly in relative strength in September; the current widens proportionately.

Currents maintain their integrity as a single entity over time. If a theme ceases to occur in the documents for a period of time and then recurs, the current likewise disappears and then reappears. Consistent color and relative position to other themes make theme currents easy to recognize. In Figure 1, the lower purple band depicts the changes in relative strength of the theme “cane.” The “cane” current occurs grows and shrinks over time; “cane” occurs most strongly in March 1961.

We believe that ThemeRiverrsquo;s continuous curves have much to do with its usability. The Gestalt School of Psychology [8], founded in 1919 in Germany, theorized that with perception, “the whole is greater than the sum of the parts.” Simply put, during the perception process humans do not organize individual, low-level, sensed elements, but sense more complete “packages” that represent objects or patterns. In his recent book [6], Hoffman presents a compelling discus- sion of how our perceptual processes identify curves and silhouettes, recognize parts, and group them togeth- er into objects. Numerous aspects of the image influ- ence our ability to perceive these parts and objects, including similarity, continuity, symmetry, proximity, and closure. For example, it is easier to perceive objects that are bounded by continuous curves than those that contain abrupt changes [17].

The vertical proximity of the river currents makes it easy f

剩余内容已隐藏,支付完成后下载完整资料


ThemeRiver:可视化主题随时间的变化

Susan Havre,Beth Hetzler,and Lucy Nowell

Battelle Pacific Northwest Division Richland,Washington 99352 USA

Abstract:主题河流是一个原型系统,可以在大量文档中随时间显示主题变化。这条“河流”用从左到右流经的时间和改变的宽度来描述事件相关文件的主体强度的变化。在河流内流动的彩色“水流”变窄或变宽来指示相关文件中单个主题或多组主题的强度的减小或增加。河流在时间线的背景下显示,并在外部事件的相应文本中也予以显示。

Key words:可视化隐喻;趋势分析;时间表

  1. 简介

在探索性信息可视化中的一个目标是提供信息来让用户可以轻松识别模式。模式揭示数据中的趋势,关系,异常和结构,并且可以帮助用户确认知识或假设。也许更重要的一点是,这也能通过提出许多额外的问题来引导用户获得新的见解,与此同时,这项技术面临的挑战便是创建可视化,使用户能够快速轻松地找到模式。ThemeRiver(主题河流),如图1所示,是一个原型系统,旨在揭示文本集合中的时间模式。

信息可视化系统,如Envision,BEAD,LyberWorld和SPIRE这些表示具有字形或图标的每个文档或文档组来描述各种文档属性。目前,大量的方法已经被探索出用来显示以文档为中心的可视化中随时间的变化。见下文第3节。

但是,用户可能对文档本身的兴趣低于在收集数据期间的主题的更改,例如,莎士比亚的主题是如何在他生命的不同周期或当代事件的关联中变化的?从大多数可视化系统中收集这些信息即便不是不可能,那也是极其困难的。专注于主题而非文档的可视化对于此类探索可能更有用。

ThemeRiver通过串行维度为用户提供文档语料库中主题变化的宏观视图。它旨在帮助我们识别趋势,模式以及主题或主题的意外变化。在我们的原型中,我们使用时间作为串行维度,也通过时间线和感兴趣的共同事件的标记提供上下文信息。图1 显示了ThemeRiver可视化示例。本文描述了ThemeRiver的设计,介绍了样本信息探索会议并讨论了形成可用性测试的结果。

图1:ThemeRivertrade;使用河流隐喻来表示随时间变化的主题。

  1. 设计

我们的主要设计目标是提供主题随时间变化的可视化效果,并且考虑用直方图来展示这些变化。在直方图中,每个条形表示时间切片,条形内的颜色变化和大小表示特定于该切片的主题的相对强度。但是,了解直方图需要用户在时间内整合主题,因为条形图锚定到基线,并且条形内特定主题的位置上可能会有很大差异。

像直方图一样,ThemeRiver使用宽度变化来表示强度或表现程度的变化。但是,他将相邻时间片中的强度值和平滑连续的曲线相连,河流的水平流动代表了时间的流逝,在河中水平延伸的彩色水流代表主题,河流的每个垂直部分对应于有序时间片。

每个水流的宽度会发生变化来反映每个时间片的主题强度。例如,在图1中,主题“苏维埃”在1960年6月亮橙色水流的扩大代表了他们的相对强度增加。“苏维埃”在七月和八月失去了相对的力量,因此在接下来的两个时间片中相同的水流颜色并未改变。9月份“苏维埃”的相对强度显著增加,目前的比例逐渐扩大。

随着时间的推移,水流作为单一实体保持其完整性。如果主题在文档中消失一段时间后再次出现,则水流信息也会同样的消失,然后重新出现。与其他主题保持一致的色彩和相对位置使得他们水流的主题更易于识别。在图1中,较浅的紫色带描绘了主题“甘蔗”的相对强度的变化。“甘蔗”水流随着时间的推移而增长或缩小,1961年3月,“甘蔗”发生率最高。

我们相信ThemeRiver的连续曲线和其可用性有很大关系。格林塔心理学院于1919年在德国成立,理论上认为“整体大于各部分的总和”。简单地说,在感知过程中,人类不会组织个体的,低级的,可被感知的元素,但会感知到更加完整的代表对象或模式的“包”。在霍夫曼最近的著作中,他提出了一个引人瞩目的讨论,即我们的感知过程如何识别曲线和轮廓,零件,并将他们组装成一个物体。图像的许多方面都影响着我们感知这些零件和物体的能力,包括相似性,连续性,对称性,接近性和闭合性。例如,感知由连续曲线界定的物体比包含突变的物体来得更加容易。

河流的垂直程度使用户可以轻松判断水流的相对宽度,从而判断主题的相对强度。同样,围绕河流水平轴的对称性而产生的水流或水流组使用户更容易感知流动模式和变化。水流宽度结合起来而显示出的累积的变化代表了整个主题集的强度变化。

我们可以通过各种方式计算主题强度的值。例如,他们可能代表包含该单词的文档数量,因为如果主题太少或太多,河流会失去其连续性和结构,我们创建了几个主题子集用于探索。

我们已经实现了原理验证原型并用它来探索多个出处不同的数据,图1描绘了与Fidel Castro相关的演讲,访谈,文章和其他文本集合中的数据。可视化内容包括河流,河流下方的时间线以及顶部相关历史事件的标记。使用ThemeRiver,用户可以

  • 显示主题和事件标签
  • 显示时间和事件网格线
  • 显示原始数据点
  • 选择水流和河流的绘图算法

用户还可以通过在图像上移动鼠标来显示相关的时间或主题名称。此外,用户可以平移和缩放来查看其他时间段或河流的某些部分,并查看更多详细信息或更广泛的背景信息。在这个样本数据集中,我们发现主题和事件之间有几个有趣的对应关系,例如在卡斯特罗没收美国炼油厂之前“石油”主题的扩大。

  1. 相关工作

许多系统包含了查看时间的功能,一种常见的方法是显示离散时间片。例如,在信息检索和探索的空间范例可视化中,用户可以选择阶段性的时间步骤,仅显示在每个指定时间段内发起的文档的图标。另一种常见的方法是将时间显示为文档的属性,例如弗吉尼亚理工大学的Envision系统,该系统允许用户将各种元数据值,颜色,形状或大小图形编码(包括日期)映射到x轴,y轴。

直接关注时间的系统本质上更类似于ThemeRiver。LifeLines系统由马里兰大学和IBM联合开发,用于可视化医疗记录和青少年犯罪记录。可视化显示将x轴显示时间并使用y轴对事件进行分类。条形图描述给定事件的持续时间以及图形属性,例如颜色显示事件属性。ThemeRiver使用类似的方法,添加能够用相关时间条之间的线显示父子关系。DIVA系统使用动画来显示特定测量值相对于视频的时间流变化。为了帮助小组协作创建文档或其他工作,在Xerox PARC开发的Timewarp系统允许用户查看和编辑该工作的状态的多个时间轴。其中引用的隐喻类似于状态图,其中线条连接状态节点和分支。关于时间表的其他工作包括Karam和Kullberg。

我们知道没有其他系统使用河流隐喻来描述时间的流逝,然而,Tufte在艺术家的插图中提出了类似的想法,展示了音乐的趋势。在该图中,宽度表示销售额和表示了先前样式影响的接近度。我们的工作在几个方面有所不同,例如颜色的使用,上下文事件的包含,以及从潜在的非常大的文档集合自动生成可视化的能力。

  1. 可行性评估

在ThemeRiver的早期开发过程中,我们对两个用户进行了简单的形成可用性评估,我们想通过此评估回答的问题包括

  • 用户能否理解这个比喻
  • 能否可以识别用户更加经常讨论的主题
  • 可视化是否可以帮助他们提出有关数据的问题
  • 他们是否可以用我们意想不到的方式解释可视化的细节
  • 他们对可视化的解释与显示相同数据的直方图的解释有何不同

图2:与图1中的ThemeRiverTM类似,该柱状图使用Castro收集数据,并描述随着时间推移主题内容的变化。

数据就是上面所描述的卡斯特罗收集,重点是1960-1963年之间的数据。我们在ThemeRiver和使用电子表格创建的直方图中展示相同的数据,我们使直方图的内容尽可能与ThemeRiver相似。例如,直方图按月显示主题内容,使用驱动ThemeRiver的相同值。月底时间线显示在底部,我们在直方图中添加了一个事件线,就像ThemeRiver中的一样。

可行性评估首先简要说明了会话的目的,然后介绍了数据。两位参与者都在两个可视化系统中查看了数据:一个参与者首先使用直方图,一个使用ThemeRiver,我们向每位参与者询问了他们在每个展示中观察到的内容,具体问题的例子包括:

  • 1962年7月,讨论最多的三个主题是什么?
  • 是否引入了新主题?

更一般的例子包括:

  • 这里看起来很有趣-你想要探索什么?
  • 你想如何更改或操纵视图?

我们在讨论期间制定了一份口头协议,最后,我们要求参与者完成一份简短的调查问卷,其中包含有关可视化和可能增强功能的反馈。

从口头协议和用户行为中,我们观察到用户在理解隐喻方面没有任何困难,他们能够识别出强烈代表的主题,并能够理解当前宽度和主题强度之间的关系。可视化还引发了关于某些主题优势和模式背后原因的问题,对于探索性可视化,这是一个很好的结果;我们相信可视化技术应该有助于用户识别需要探索的问题。

问卷调查显示,用户发现ThemeRiver易于理解,他们还发现ThemeRiver对于识别宏观趋势更为有用。他们告诉我们,它对于识别小趋势没那么有用,因为曲线往往不再强调非常小的值。我们询问了河流比喻的价值,并且用户对它的评价也很高。。他们观察到河流的连通性使他们随着时间的推移比直方图更容易观察趋势,该结果与Ware描述的感知原则兼容。

某些用户喜欢直方图的一些功能,并建议将它们添加到ThemeRiver,其中一个特征就是能够看到驱动直方图和河流的数值。一位用户表达了对直方图的更多信任,因为他知道条形图代表了数据值,而他并不确定ThemeRiver中的数值到底是什么。他的观点是正确的,特别是因为ThemeRiver的曲线确实要求我们在数据点之间进行插值以产生曲线,我们也已经添加了用户按需求查看确切数据点的功能。

虽然用户喜欢整个集合的抽象表示而不是单个文档,但是如果需要,两个用户都建议添加访问文档的功能。他们希望能够在任何时间段内查看文档总数,并根据需要获取每个文档的文本,他们想要选择一个水流并查看有助于他的文件。

用户还希望能够重新排列主题水流,他们讨论的选项包括用户定义的排序和相关排序,因此文档中出现的主题将在河流附近。

  1. 交互和样本使用

基于可用性评估结果,我们添加了许多功能来将河流隐喻和直方图功能相结合起来。本节介绍示例使用方案,说明当前版本的功能。

我们使用ThemeRiver来探索来自TREC5分发盘的1990年协会新闻(AP)新闻专线数据,这是一组超过100,000份文件(见图3)。要在此集合中探索所选主题,用户可以通过沿着河道平移来进行高级别调查。用户可能会寻找更广泛的水流来表示对主题的大量使用,例如图中的“巴格达”。

河流信号颜色分布的随主题发生变化。我们在1990年8月看到了这样的变化,当时在7月下旬消失的“科威特”水流突然出现并迅速扩大。用户还可以在河中寻找狭窄的水流,这些水流表明对特定主题的相对较少的使用。

在早期的论文中,Hetzler等人利用我们的各种视觉分析工具探索了AP数据集,重点关注了8月2日伊拉克入侵科威特的大型主题变化。ThemeRiver也反映了这些大型主题变化。靠近右侧图3中,我们看到入侵时有几股水流急剧扩张,这些电流显示在河流上方的时间线上。某些标签被用来代表主题水流,“科威特”,“伊拉克”,“萨达姆”,“巴格达”。ThemeRiver揭示了一些早期研究中未提及的其他细节,在整个图像中持续存在的主题“oil”也在此时显著扩大。“科威特”,“伊拉克”,“萨达姆”等主题在入侵以前以小爆发的形式出现,但不是持久性的,与这些爆发相对应的新闻报道涵盖了导致入侵的口头冲突。持久性和突发性主体之间的区别是ThemeRiver提供的以文档为中心的可视化的一个优势。

图3:1990年7月至8月的AP数据。河流中的宽水流表明主题的大量使用,而颜色分布的变化与主题的变化相关。

在六月下旬和整个1990年七月,主题似乎相对一致。对更突出主题感兴趣的用户可以打开主题标签,如图3所示,来发现重要主题“丛林”(布什总统),“德国”(统一讨论)和“共产主义”。一些只有更小变化的主题也很明显,例如“北约”乐队的扩大,这和北约决定重新定义军事战略息息相关。

图4显示了1990年夏季早期的ThemeRiver。在5月下旬,主题强度发生了很大的变化,这次与之前发现的任何事件都不相符。其中较大的潮流是“戈尔巴乔夫”,“灌木丛”和“峰会”,这可能表明了布什和戈尔巴乔夫都出席了峰会。查看从那时起相关的新闻文件,我们会发现在华盛顿包括布什和戈尔巴乔夫在内的几位世界领导人举行了为期四天的首脑会议。

图4:1990年6月至7月的AP数据的ThemeRiver与之后立即显示的事件截然不同的事件

图4中还可以看到一些更微妙的变化,例如,河流中部附近的水流在6月初附近略微扩大,并在月底附近再次扩大,这对应了主题“地震”的当前情况。更广泛的区域分别与秘鲁和伊朗的地震相对应。

<p

剩余内容已隐藏,支付完成后下载完整资料</p


资料编号:[19743],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。