为什么我们要使用Twitter:微博的使用和网络社群外文翻译资料

 2023-01-31 03:01

为什么我们要使用Twitter:微博的使用和网络社群

摘要

微博是一种新的沟通形式,用户通过即时消息,手机,电子邮件或网页来发表一小段内容来表达自己目前的状态和想法。自2006年10月推出以来Twitter有了显著的成长并且逐渐成为了流行的微博工具。在本文中,我们通过研究拓扑和地理属性提出我们对Twitter的社交网络中微博现象的看法。 我们发现人们使用微博谈论他们的日常活动并且主动寻找或共享信息。最后,我们分析了用户的关于社群等级的意向,以及展示出具有相同意向的用户是如何相互产生联系的。

1.介绍

微博是一个相对来说较新的现象,被定义为“一种博客形式,可以让你写简短的文本更新(通常少于200个字符)或展示关于你的生活的点滴,并通过短信,或即时消息,电子邮件或网络发送给朋友和感兴趣的访问者.”它是由几个服务商包括twitter,jaiku和最近流行的Pownce提供服务器。这些工具提供了一个简易的,易于沟通的形式,使用户能够广播和分享他们的活动,意见和状态。其中一个热门微博平台是Twitter。根据comScore显示的数据,在其推出的八个月内,推特已经约有94000用户截止至2007年4月。图1显示了Twitter第一作者的主页的快照。更新或发表一段在140字的限制以内的文字来简洁地描述或表达一个人当前的状态和心情。话题范围从日常生活到时事,新闻故事和其他兴趣领域。及时通讯工具包括Gtalk,雅虎和MSN还具有允许用户在他们的好友列表与朋友分享他们的状态和心情的功能。微博工具可以方便地共享状态消息,无论是公开或在社会网络。

与常规博客相比,微博满足了更快的通信方式的需要。通过鼓励发表更短的帖子,它降低了用户对内容生成的时间和思想投入的要求。总的来说这也是它与博客的主要区别因素。第二个重要的区别是更新的频率。平均来说,一个高产的博客会每隔几天更新;然而在另一方面,微博可以在一天进行几次更新。

最近Twitter和类似的微博系统的普及,重要的是要了解人为什么和如何使用这些工具。了解这将有助于我们发展微博的理念,同时改善微博客户端和基础设施软件。我们解决这个问题时,通过研究微博现象,并在这样的系统分析不同类型的用户意图。

用户意图检测的大量研究集中在了解搜索查询的意图。根据Broder 提供的信息,搜索查询的三个主要类别是导航,信息和交易。了解搜索查询的意图与用户内容创建意图截然不同。在博主的调查中,Nardi等人描述了“为什么我们要博客”的不同动机。他们的研究结果表明,博客被当作分享日常经验,意见和评论的工具。基于对他们进行的访问,他们还描述了博主如何在线上形成有可能支持现实世界中不同社会群体的社区。 Lento等人研究确定了社会关系这一项在确定用户是否会在Wallop博客工具中保持活跃有重要的影响。用户对博客保持的兴趣可以通过收到的评论和与社区其他活跃成员的持续关系来预测。被邀请的人与他们预先分享的用户相比往往会停留更长的时间并且活跃在网络。此外,某些社区拥有更大的保留率,由于存在这样的关系。在社会网络中的相互意识已经成为了发现新的网络社区的重要因素。

在计算语言学家的研究中,研究人员研究了识别对话系统和口语界面中发音的交际意图的问题。 这项工作的基础可以追溯到Austin,Stawson和Grice。Groze和Allen进行了富有经验的研究,他们分析了人与人与计算机在面向合作任务的环境中的对话。 最近,Matsubara已经应用意图识别来提高汽车语音对话系统的性能。 虽然他们的工作集中在分析两个代理之间在一个相当明确的领域的持续对话,但在基于Web的系统中研究用户意图需要同时考虑到内容和链接结构。

在本文中,我们描述了用户如何采用和接收特定的微博平台Twitter。 微博比较新颖,据我们所知,这种形式的通信和信息共享没有进行大规模的研究。 我们研究Twitter社交网络的拓扑和地理结构,尝试了解微博中用户的意图和网络社区结构。 从我们的分析中,我们发现用户意图的主要类型是:每日聊天,对话,共享信息和报告消息。 此外,用户在不同网络社区中扮演信息来源的不同角色,朋友或信息寻求者。

本文的组织如下:在第2节中,我们描述了Twitter用户的基础社交网络的数据集和一些属性。 第3节分析了Twitter的社交网络及其在各个地区的传播。 接下来,在第4节中我们将描述聚合用户行为和网络社区级别用户的意图。 第5节提供了用户意图的分类。 最后,我们总结了我们的发现,并结束于第6节。

2.数据描述

Twitter目前是最流行的微博平台之一。用户通过使用Web界面,及时通讯代理或发送SMS更新与此系统进行交互。会员可以选择将其更新公开或仅供朋友使用。如果用户的个人资料公开,则其更新会显示在最新更新的“公开时间表”中。本研究中使用的数据集是通过监测这个公共时间线来创建的,从2007年4月1日起至2007年5月30日为止,为期两个月。每30秒提取一组最近的更新。此集合中共有76,177个不同用户并包含共有1,348,543个推文。 Twitter允许用户A从其他被添加为“朋友”的成员“关注”更新。一个不是用户A的朋友,而是“关注”她的更新的人称为“关注者”。因此,友谊可以是互惠的还是单向的。通过使用Twitter开发工具API5,我们获取了所有用户的社交网络。我们构造有向图G(V,E),其中V表示一组用户,E表示“朋友”关系的集合。如果用户u将v声明为朋友,则在两个用户u和v之间存在有向边缘e。共有87,897个不同的节点,他们之间有829,053个朋友关系。由于发现某些用户链接结构在收集数据的持续时间内没有任何帖子,因此此图中应有更多的节点。对于每个用户,我们还获取了他们的个人资料信息,并将其位置映射到地理坐标,其细节在下一节中提供。

3.Twitter中的微型博客使用

本节介绍了Twitter的社交网络的一些特性,包括它的网络拓扑和地理分布。

3.1Twitter的发展

由于Twitter提供顺序用户和帖子标识符,我们可以估计Twitter的增长率。图2显示了用户的增长速度,图3显示了该收集中帖子的增长率。既然,我们无法获得历史数据,我们只能观察两个月时间的增长。我们每天都会识别Twitter API提供的用户标识符和帖子标识符的最大值。通过观察这些价值观的变化,我们可以粗略估计Twitter的增长。有趣的是,尽管Twitter在2006年推出,但是在2007年3月,SouthWest(SXSW)会议网站奖6获得南方之后,它很快就开始流行。图2显示了由于利益而导致用户的初步增长, Twitter在这次会议上的宣传。此后,新用户加入网络的速度已经放缓。尽管增长放缓,新职位的数量不断增长,每个月大约翻了一番,表明用户产生内容的稳定基数。继Kolari等人我们使用以下用户活动和保留的定义:

定义如果用户在该周内至少发布了一篇文章,则认为用户在一周内被认为是活跃的。

定义如果在以下X周内他或她至少转发一次,则活动用户被认为在给定的一周内保留。

由于数据可用的时间短,微博的性质决定使用X作为一周的时间。图4显示了数据持续时间内的用户活动和保留。大约一半的用户是活跃的,其中一半的用户在接下来的一周内转发。在数据的最后一周记录的活动较低,这是因为在此期间两天内公共时间表的更新不可用。

3.2网络性能

网络,博客圈子,在线社交网络和人类接触网络都属于一类“无规模网络”呈现出“小世界现象”。研究已经表明,包括Web上的度数分布的许多属性遵循幂律分布。最近的研究证实,其中一些属性也适用于博客圈。表1描述了Twitter社交网络的一些属性。我们还将这些属性与Shi 等人报道的Weblogging Ecosystems Workshop(WWE)集合的相应值进行比较。他们的研究表明,网络具有高度相关性(也如图6所示)和高互惠性。这意味着图中会产生大量人群的相互认识。新的Twitter用户通常最初通过朋友邀请加入网络。此外,通过浏览用户配置文件和添加其他已知的熟人,将新朋友添加到网络。在其他在线社交网络(如Livejournal )中也观察到高度互惠的联系。个人通信和联络网如手机呼叫图也具有高度的相关性。图5显示了Twitter网络的累积度分布。有趣的是,斜率gamma;in和gamma;out都大约为-2.4。幂律指数的这个值类似于Web所发现的值(通常为-2.1为入度)和博客空间(-2.38为WWE集合)。

3.3地理分布

Twitter提供有限的个人资料,如姓名,性别,时区和地点。对于我们集合76K用户中的大约39K的用户,已经指定了可以正确解析的位置,并将其解析为它们各自的纬度和纵坐标(使用Yahoo! Geocoding API7)。图7和表2显示了Twitter用户的地理分布和每个大陆的用户数量.Twitter在美国,欧洲和亚洲(主要是日本)最受欢迎。东京,纽约和旧金山是用户采用Twitter的主要城市。

Twitter的流行是全球性的,其用户的社交网络跨越大陆边界。通过将每个用户的纬度和经度映射到大陆位置,我们可以提取每个边缘的起点和目标位置。表3显示了在数据集中所代表的各大洲之间友谊关系的分布情况。 Oceana被用来代表澳大利亚,新西兰和其他岛国。社交网络的很大一部分(约45%)仍然在北美。而且,还有更多的内陆链接跨越大陆。这与观察结果一致,两个用户之间产生友谊的概率与他们的地理邻近度成反比。

在表4中,我们比较了大多数在北美,欧洲和亚洲的这三大洲的一些用户的网络特性。对于每个大陆,只通过考虑友谊关系的来源和目的地属于同一大陆的子图来提取社会网络。亚洲和欧洲社区与北美同行具有较高的相关性和互惠性。语言在社交网络中扮演着重要的角色。来自日本和西班牙语世界的许多用户与使用相同语言的其他人联系起来。一般来说,欧洲和亚洲的用户在其相应的子图中往往具有较高的互惠性和聚类系数值。

4.用户的意图

在本文中,我们提出了一种用于用户意图检测的两级框架。 首先,我们使用HITS算法来查找网络中的中心和权限。 集线器和权限具有相互增强的属性,计算如下:H(p)表示页面p的集线器值,A(p)表示页面p的权限值。

表5列出了十大枢纽和机构的清单。 从这个列表中我们可以看出,一些用户拥有高权威分数,而且也是高分数。 例如,在Twitter中有很多追随者和朋友的Scobleizer,JasonCalacanis,bloggersblog和Webtickle位于此类别。 一些权威分数非常高的用户具有较低的中心评分,如Twitterrific,ev和springnet。 他们有很多追随者,而然而在Twitter中的相互认识朋友较少,因此位于此类别。 一些其他具有非常高的中心分数的用户具有相对较低的权威分数,例如dan7,startupmeme和aidg。 他们跟随许多其他用户,而不是更少的相互关注朋友。 基于这种粗略的分类,我们可以看到用户意图可以大致分为这三种类型:信息共享,信息寻求和友谊关系。

在中心/权限检测之后,我们在网络社区中只通过考虑两个用户将对方视为朋友的双向链接来识别友谊关系。网络中的社区可以被模糊地定义为彼此密集连接的节点组,而不是组外的节点。通常社区是主题或基于共同的兴趣领域。为了构建网络社区,Flake等人提出了一种使用HITS并最大化流量/最小化切割以检测网络社区的方法。在社交网络领域,Newman和 Girvan提出了一种称为模块化的度量来衡量社区结构。直觉上来说将网络划分到网络社区中的不仅仅是使社区之间的边缘数量变少;相反,组之间的边数比预期的小。只有当组合边缘之间的数量明显低于偶然的预期数量时,我们才有理由声称已经发现了重要的网络社区结构。基于网络的模块化测度,提出优化算法,通过优化将可能的分区模块化,为网络中的各种不同的社区进行的良好划分。此外,该优化过程可以与矩阵的特征向量相关。然而,在上述算法中,每个节点必须属于同一个社区,而在真实网络中,社区往往重叠。一个人可以在不同社区中提供完全不同的功能。在此极端情况下,一个用户可以在一个网络社区中作为信息源,另一个用户可以作为另一个网络社区的信息搜索者。

在这里,我们列举了一些关于网络社区在Twitter中形成的具体例子,以及为什么用户要致力于网络社区组成 - 每个社区中的用户意图。图8说明了一个基于Twitter服务的具有58个用户通过彼此密切通信形成的网络社区。他们谈论的关键术语包括工作,Xbox,游戏和玩乐。很明显有些拥有共同游戏兴趣的用户聚在一起讨论有关此主题的话题或者关于某些新产品以及分享游戏体验的信息。当我们去特定用户主页时,我们也会发现这种对话:“BDazzler @ Steve519我一点也不了解Jap PS3。我认为他们有区域编码,所以你只能玩Jap游戏。欧洲没有ps2芯片”或“BobbyBlackwolf播放PS3固件更新,无法获得WMP11共享MP4的,PS3将不会播放WMV或AVI的...失败”。我们还注意到,这个社区的用户除了分享对“游戏”的评论之外,还会发表他们的个人感受和日常生活体验。基于我们对Twitter数据集中社区的研究,我们观察到,这是Twitter网络中的一个代表性社区:一个社区的人有一些共同的兴趣,并且彼此分享他们的个人感觉和日常经验。

使用CPM,我们可以通过重叠的组件相互连接的方式找到社区。 图9显示了两个具有播客兴趣的社区,GSPN和pcamarata是连接这两个社区的人。 在GSPN的个人简介中,他提到他是普通话播客网络的制作人; 而在pcamarata的个人简介,他提到他自己是一个有家室的人的人,同时是一名神经外科医生和一个播客。 通过观察这两个社区的关键条件,我们可以看到,绿色社区用户谈论分享的信息的重点更多样化:人们偶尔会谈播客,而红色社区的话题则更为重点。 从某种意义上说,红色的社区就像播客的专业社区,而绿色的社区则是一个关于播客的非正式

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140826],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。