英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
统计学在数据挖掘中的吸引力
洛夫琳·库马尔·格洛弗和拉杰尼·梅赫拉
概要:像统计学一样,数据挖掘关注的是“从数据中学习”或“将数据转化为信息”。对于统计学家来说,'数据挖掘'一词具有贬义。数据挖掘不像统计学那样在大量数据中找有用的模型,而是具有搜索数据以适应预期想法的内涵。在这里,我们试图讨论统计学家和数据挖掘者之间的异同以及关系。本文旨在弥合这两个领域中人们之间的一些差距。
关键词:删失数据;数据库;数据疏浚;数据钓鱼;数据挖掘;探索性数据分析;数据挖掘中的知识发现;截尾数据.
1.引言
“统计学”和“数据挖掘”这两个学科非常相似。统计学家和数据挖掘者通常使用许多相同的技术。现在,更多的统计软件供应商都包含许多这些技术。在过去的一个半世纪里,统计学作为一门独立于数学的学科发展起来,以帮助科学家探究数据与现象,并设计实验,产生与科学方法相关的、可重复且准确的结果。在这段时间里,问题几乎都不是数据太多,而是太少。然而数据挖掘是对大量数据进行探索和分析,以发现有意义的模式和规则。或者数据挖掘是以探索性数据分析和预测模型的形式应用统计学,以揭示大量数据的集中的模型和趋势(请参阅贝瑞-利诺夫(1997)).因此,与统计一样,数据挖掘不仅是建模和预测,而且是一个完整的问题解决过程。
数据挖掘领域的早期发展是促使公司改善其营销。但如今,数据挖掘技术和工具同样适用于其他领域,如执法,射电天文学,医学和工业过程控制等。许多数据挖掘算法已经被开发了,但这些算法的发明并没有运用于任何特定的商业应用。商业数据挖掘者采用了从统计学、计算机科学和机器学习研究中习得的大量技术。在特定情况下,应用的特定技术组合的选择取决于以下几点:
(1)数据挖掘任务的性质;
(2)可用数据的性质;
(3)数据挖掘者的技能和偏好。
由于统计和数据挖掘都涉及从数据中学习的过程,因此,主要问题是知道如何从数据到信息,从信息到知识,从知识到决策,从决策到行动。因此,我们可以说,“我们淹没在信息中,但渴望知识”。此问题的补救措施是数据挖掘和(或)统计。早期的统计学家是务实的人,他们发明了处理手头任何问题的技术。对现代统计学的创始人来说,最了不起的是,早期开发的关于少量数据的统计技术幸存了下来,并且仍然证明了它们的效用。这些技术不仅在原始领域,而且几乎在所有需要收集数据的领域都证明了它们的价值。例如,农业实验、心理学实验、天文实验、医学实验甚至企业等领域的科学研究都需要各自领域的数据才能做出一些合乎逻辑的决策。在计算机技术和电子数据采集进步的刺激下,近几十年来,从超市销售和银行业务,到天文学、粒子物理学、化学和药物,再到官方和政府统计数据,许多领域都出现了庞大的数据库。这些庞大的数据库被视为一种资源。可以肯定的是,其中有很多有价值的信息,尚未被利用的信息,数据挖掘被视为提供了一套可以提取该信息的工具。数据挖掘的过程也称为 KDD(数据挖掘中的知识发现)。数据挖掘的主要活动是:分类,估计,预测,数据分组或关联,聚类以及描述和可视化。
计算能力的出现显然简化了分析的某些方面,尽管其更大的影响可能是产生大量数据。我们的目标不再是从每个罕见的数据中提取每一点可能的信息。相反我们的目标是理解如此庞大的数据量,以至于它们超出了我们的大脑原始理解的能力。
本文首先介绍了应用统计学最重要的方面——怀疑态度,然后它讨论了如何通过统计学家的眼睛分析数据。本文最后简要讨论了数据挖掘者和统计学家之间的一些差异,以及他们态度的差异,这些差异更多的是程度问题而不是实质问题。
2.数据挖掘和统计
许多数据挖掘技术是由统计学家发明的,或者现在已经集成到统计软件中。它们是标准统计的扩展。虽然数据挖掘者和统计学家使用类似的技术来解决类似的问题,但数据挖掘方法在几个方面与标准统计方法不同,例如:
(1)数据挖掘者认为有足够的数据和处理能力。
(2)数据挖掘假定在任何地方都依赖于时间。
(3)如果没有数据挖掘,在商业世界中设计实验可能很困难。
这些是方法的差异,而不是对立面。因此,他们阐明了数据挖掘者解决的业务问题与刺激统计发展的科学问题有何不同。业务数据和科学数据之间的一个主要区别是,后者是非截断或非删失数据,前者是截断或删失数据。给定分析数据的方法或算法,通常很难说它是“统计”还是“数据挖掘”。目前尚不清楚应该如何贴上这个标签。实际上,在实践中,在处理行业中的现实问题时,客户从不问:“你是数据挖掘者还是统计学家?”事实上,他们的主要兴趣是将手中的问题解决到他们满意的程度,我们使用什么标签并不重要。作为客户的服务人员,我们(作为数据挖掘者或统计学家)需要尝试那些最适合回答客户查询的统计技术或算法。
通过在数据挖掘中采用先进的分析方法,企业可以增加收入,最大限度地提高运营效率,降低成本并提高客户满意度。而统计可以构建预测模型或开发影响您底线的分类。没有统计数据,就没有有效的分析。没有有效的分析,就没有商业智能。如果没有商业智能,您如何希望吸收千兆字节的数据并始终如一地做出能够让您在竞争中保持领先地位的决策?借助统计信息,您可以将数据转换为有关业务流程的知识。在数据挖掘中使用统计信息会显著影响组织的所有领域。如今,统计软件可以提高您从车间到销售层再到执行层的竞争力。在当今的商业舞台上,跟上市场趋势并预测未来结果是一项持续的挑战。为了增加市场份额和高效运营,您不得不在数据挖掘中使用统计数据。如果你没有挖掘你的数据,那么你就会因为你没有充分利用你公司最大的资产之一而感到内疚。虽然,统计学中有一个子学科关注的是描述,但在任何一般的统计文本中,只要看一眼,就会发现当一个人只观察一个样本时,一个重点关注的问题是如何对一个总体做出陈述。但是数据挖掘问题通常具有可用的整个数据群体,例如公司整个员工的详细信息等。在这种情况下,统计显著性检验的概念将失去意义。另一方面,数据挖掘的中心目标是发现,它不关心那些涉及如何最好地收集数据的统计领域,以便回答特定的问题,例如实验设计和调查设计。数据挖掘本质上是假设数据已经被收集,并且关心如何发现其秘密。有关统计和数据挖掘之间异同的进一步研究,读者可以查阅汉德(1999年a,1999年b).
3. 数据挖掘就是统计还是比统计更重要?
实际上,数据挖掘是“数据疏浚”或“数据捕捞”的同义词,并被用来描述搜索数据的过程,以期识别模型。数据不是简单的统一数据,它们具有可以解释为模型的差异。麻烦的是,这些“模型”中的许多只是随机波动的产物,不会代表任何底层结构。因此,对于统计学家来说,“数据挖掘”一词传达了一种天真的希望,这种希望徒劳地与偶然的冷酷现实作斗争。然而,对于其他研究人员来说,这个词被看作是一个更积极的角度。当然,从表面上看,我们在这里描述的只是探索性数据分析,这是自首次分析数据以来一直在进行的活动,并且获得了更大的可敬性。但是有一个区别,正是这种差异解释了为什么统计学家在抓住机会方面行动迟缓。这种差异是现在可用的数据集的绝对规模。统计学家通常不关心包含数百万甚至数十亿条记录的数据集。此外,处理它们所需的特殊储存和操作技术是由与统计学家完全不同的知识界开发的。可以毫不夸张地说,大多数统计学家都关心的是原始数据分析。另一方面,数据挖掘完全与二次数据分析有关。事实上,我们可以将“数据挖掘”定义为对大型数据库进行二次分析的过程,旨在找到数据库所有者感兴趣或有价值的未被怀疑的关系。从中我们可以看出,“数据挖掘”在很大程度上是一种归纳练习,而不是通常被视为现代科学进步范式的假设演绎方法。
一个常见的模式是,其他学科的研究人员将提出一个新想法,将引起相当大的兴趣,只有这样统计学家才会参与其中。统计和统计人员确实有可能被视为无关紧要的小人物,没有在科学和更广泛的生活中发挥应有的根本作用。统计学家迫切需要参与数据挖掘工作。基本上,经典统计处理数字数据,但如今,数据库包含其他类型的数据。四个明显的例子是图像数据、音频数据、文本数据和地理数据。数据挖掘的主要问题包括在这些数据库中找到有趣的模型和结构。当然,不可能简单地要求计算机“搜索有趣的模型”或“查看数据中是否有任何结构”。在做到这一点之前,需要定义模型或结构的含义。在做到这一点之前,人们需要决定“有趣”是什么意思。一般来说,感兴趣的内容将在很大程度上取决于应用领域。在搜索模型或结构时,需要在特定和一般之间做出妥协。数据挖掘的本质是,人们并不确切地知道自己正在寻找什么样的结构,因此一个相当一般的定义将是合适的。另一方面,过于笼统的定义会产生太多的候选模式。由于模型搜索将抛出大量候选模型,因此很有可能将虚假数据配置标识为模型。现在的问题是,我们如何处理这种情况?只有走出使用评分规则而不是概率解释的传统概率统计框架,才能找到解决方案。这个问题类似于统计模型的过度拟合,随着神经网络等极其灵活的模型的发展,这个问题引起了人们的新兴趣。
原则上,统计专家系统将体现对数据分析过程的智能理解的庞大基础,它可以自动应用于相对较小的数据集。而数据挖掘系统,它体现了智能理解的一个小基础,但它将其应用于大型数据集。在这两种情况下,应用程序都是自动的,尽管在这两种情况下,与研究人员的互动都是基本的。在统计专家系统中,程序按照统计策略驱动分析,因为用户没有足够的统计专业知识来这样做。而在数据挖掘应用程序中,程序驱动分析,因为用户没有足够的资源来手动检查数十亿条记录和数十万个潜在模式。有关数据挖掘与统计的详尽观点,读者可以查阅汉德(1998).鉴于这两系统之间的这些相似之处,明智的做法是询问是否有经验教训,数据挖掘社区可能会从统计专家系统的经验中吸取教训。答案当然是肯定的。
4. 数据挖掘是否应纳入“统计”课程?
传统课程中教授的统计数据可以被描述为以小、干净、静态和随机抽样的数据为特征,并且经常收集以回答特定问题。这些都不适用于数据挖掘上下文。因为对于经典统计学家来说,一个有几千个观测值的数据集可能很大,但对于数据挖掘者来说,这是很小的。
可以说,虽然数据挖掘和统计之间有很多共同点,但两者都有自己独特的身份。我们也可能争辩说,他们各自处理的问题的特殊性以及他们所使用的方法的性质和限制可以带来富有成效的协同作用。事实上,数据挖掘问题会产生深层次的理论问题,这将受益于统计视角和理解。数据挖掘可以放在更大的统计数据的背景下,这些统计数据至少可以粗略地定义为“与从数据中学习相关的所有事情”。更多的统计往往是包容性的,在方法论方面不拘一格,与其他学科密切相关,并且由传统专业统计和学术界以外的许多人实践。
大多数数据挖掘者似乎拥有相对较少的正式统计专业知识。因此,他们有时会犯错误,而训练有素的统计学家显而易见会避免这些错误。这意味着数据挖掘者必须考虑有关虚假关联的可能性实质与统计意义问题的潜在统计见解,从而要求对数据挖掘者进行统计学培训,或在数据挖掘中培训统计学毕业生。这一办法必须是实际的和以实例为基础的,对传统的统计课程进行一些侧重点的重新规划是可取的,强调过去十五年左右出现的数据收集和分析方面的变化。在过去十年左右的时间里,数百家计算机软件制造商加入了数据挖掘的行列。主要的统计软件包,如SAS,S-PLUS,SPSS和STATISTICA等,它们正在作为数据挖掘工具而不是统计工具进行销售。
自1990年计算能力大幅提高以来,计算机科学家在提供数据挖掘课程方面击败了统计学家。然而,从机器学习的角度来看,大多数(如果不是全部)这些产品都集中在高效算法的实现上。虽然在高等教育一级开设了一些面向服务和问题驱动的统计研究方法课程,通常是通过统计单位或咨询中心提供的,但关于面向统计的数据挖掘的课程在菜单上并没有得到广泛应用。这些课程应在本科阶段提供数据挖掘的广泛统计视角,并针对统计学专业的学生以及计算机科学、数据库管理和商业研究等领域的学生。此类课程必须广泛涵盖监督或无监督的技术,并提供描述性或预测性建模介绍。典型的方案可以采取以下形式:“hellip;hellip;介绍数据挖掘应用程序,包括数据准备和数据仓库;查询、关联、“菜篮子”和规则归纳方法;使用回归、决策树和神经网络进行预测;使用分层方法和自组映射进行聚类;使用树木和神经网络进行分类;具有真实示例和案例研究的可视化方法;使用领先的数据挖掘软件工具hellip;hellip;”统计数据挖掘的高级课程,例如研究生水平,可能包括常用技术的统计基础以及广泛的新发展,如遗传算法,文本挖掘,装袋算法,碰撞和增强算法以及贝叶斯置信网络。
实际上,主要问题是,如果统计学课程的学生想从事工业应用统计学的职业,我们应该教他什么?我们如何才能最好地装备他技能,以便在未来的角色中发挥最大作用?除了常规的统计学课程外,还应该有一些与各种数据挖掘算法相关的课程,以及有关软件使用的研究,其中包括这些算法的实现。我们应该让统计学的学生接触到各种数据库,来自不同领域的各种类型的数据集。统计学的学生还应该意识到通过有效的可视化和演示来存储、访问和操作大量数据的挑战。
毫无疑问,统计学家和数据挖掘者之间是相互忽视的。这种相互忽视部分原因在于统计学的保守性与计算的冒险态度。现在人们普遍认为,数据挖掘的进步将需要将计算专家的见解与统计学家的见解相结合。这是对统计专业的控诉,很少有统计学家深入参与数据挖掘。统计学家有很多东西可以教给数据挖掘者,而数据挖掘者有很多令人着迷的新问题,统计学家甚至还没有开始研究这些问题。统计人员和数据挖掘者之间有机会产生非常有益的协同作用。但是,大多数数据挖掘者往往对统计数据和客户端的领域一无所知。统计学家往往对数据挖掘和客户领域一无所知;而客户往往对数据挖掘和统计一无所知。不幸的是,他们也往往受到短视观点的抑制;计算机科学家专注于数据库操作和处理算法;统计学家专注于识别和处理不确定性;客户专注于将知识整合到知识领域。此外,大多数数据挖掘者和统计学家继续讽刺对方。这对两个学科都是有害的。不
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[588238],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。