基于数字统计用户分群的精细化运营研究外文翻译资料

 2022-12-29 01:12

基于数字统计用户分群的精细化运营研究

摘要

每天从不同的埋点事件中生成大量的数据。 知识提取是从数据中发现一些有用和潜在的信息,这些信息可以帮助做出更好的决策。 今天的业务流程需要一种智能技术,它能够发现数据挖掘中有用的模式。 本研究是利用K均值聚类产生的剪影来提取知识。 本文利用进化算法进行优化,并对不同K值的轮廓进行比较,分析提取的知识的改进。

Keywo RDS

聚类,数据挖掘,K-Means,知识管理,剪影

利用K-Means聚类对客户细分进行比较, 发现知识

泽山阿克巴,西安交通大学,中国https://orcid.org/0000-0003-1353-4661

刘军,西安交通大学,中国扎西达拉蒂夫,CASE,Isalamabad,巴基斯坦

INTRO DUCTIo N

在公司中,市场或客户细分已经成为产品组合和营销策略的重要工具,因为很难通过不同 的方式获取客户的购买数据并理解或亲自与每个客户打交道。 公司通过了解客户的偏好和需求来分析客户的行为。 公司借助聚类技术将客户分组到不同的细分市场,这些细分市场表现出类似的特征,如需求或偏好(Silver2018)。 这些公司通过收集客户的数据和从原始数据中提取知识获得了额外的优势,比如使用能够理解客户购买习惯的挖掘技术。 聚类是最常见的客户分割数据挖掘技术(Saglamet。 2006年)。 在Cluster分析中,我们收集了一堆对象,并将它们分成几组相似的对象。 相似性是用欧氏距离来衡量的,还有其他的距离度量,比如曼哈顿距离,明考斯基距离的质量

DOI:104018/ijkm。 2020070105

版权所有copy;2020年,IGI全球。 未经IGI全球书面许可,禁止复制或以印刷或电子形式分发。

集群取决于发现揭示某些或所有隐藏知识的模式。 然后,我们通过确定它们是如何相似和不同的,来探索这些不同的群体。 在此背景下的聚类称为探索性数据挖掘(Foreman, 2013)。 客户细分有助于做出有效的业务决策,通过识别产品与每个部门或客户之间的关系,从而获得需求和供应管理等知识,而这些知识很难找到。 聚类还有助于识别某些地区的犯罪,并通过识别人口中的关系来推荐适合他人兴趣的电影。

在本文中,我们使用了一种基于分区的流行聚类方法,称为K-均值,用于客户的市场 细分,以便目标产品内容可以营销到细分市场。 该方法首先创建初始K分区,其中参数K是所需的簇数,然后使用迭代重新定位技术来改进客户的分区。 该方法使用基于中心的聚类准则,通常称为聚类质心。 每个组中心都有一个均值,K-均值从中得到它的名字。

在K均值聚类过程中,我们将数据点放置在K组中,其中K是一个数字。 每个组由中心

(均值)中的一个点定义,称为聚类质心,因此称为K均值。 我们计算一个名为剪影的分数,以验证形成的簇。 如果平均轮廓值 1,那么客户被完美地分配到集群中,提取的知识是可靠的,但是如果它接近0,那么集群分配就有点不稳定,如果它小于0,那么很多客户 都在其他集群中。 我们通过改变K值来实现两种不同的场景,并提取知识。 在一项研究(Jennex2017)中,在大数据和修订的知识金字塔的背景下解释的知识是根据K的每个值的可操作智能集群之间的交易流行程度来分析的。还计算了每个K的平均轮廓值,以确定我们是否在知识提取的背景下有所改进,并将有助于更好地描述集群。

K-Means集群

在K均值聚类过程中,用户通过指定所需簇数的K值来选择K首字母质心。 然后通过将数据中的每个点分配给壁橱质心来形成集群(Jain,2010;Li等。 艾尔2018年)。 集群的质心是根据分配给每个集群的点更新的,并且过程重复,直到点不改变位置为止(Yin等。 艾尔2018年)。 数学上:

(1)

在上述方程w中 是聚类质心,聚类中的数据点用x表示(i) 而M表示数据点的总数。物体x和质心w之间的距离 由目标函数J使用平方欧氏距离即。 ‖x-m2。 为了验证K 的值,计算了一个称为剪影的分数值。 此分值用于不同K值的比较。 剪影值在-1到

k

k

1之间。

再对现状的回顾

本节讨论了管理客户关系、客户细分的概念、它们对企业和组织的内涵的重要性以及客户 细分的用途。

客户关系管理

客户关系管理或客户关系管理是管理组织与潜在客户关系的重要策略。 公司和企业使用CRM与消费者保持联系,更新流程,提高成本效益。 客户关系管理系统基本上反映了如何管理联系人、销售管理和提高生产力。 核心思想是改进业务关系,其中智能代理没有任何背 景 信 息 根 据 它 们 之 间 的 相 似 性 划 分 数 据 集 (Razavi 等 。 艾 尔 2015 ; Ebadatiamp;Tabrizi2016;Babaie2015;Antonaamp;Stephanidis2018)。 通过记录客户的联系信息,如电子邮件、电话和社交媒体简介等,它自动更新公司活动和客户偏好的信息。

客户细分

客户细分是将客户分配到以共同特征为中心的群体中,以有效和适当地管理客户的一种做 法。 细分往往基于客户的人口统计信息, 如年龄、性别、地点和现状(Tan2018 ; Hassani等。 艾尔2018年)。 客户根据公司容易接触的某些特征被划分为子集,从而裁剪出更好的营销策略,选择合适的沟通渠道。 与客户建立更好的关系,集中在最有利可图的公司,以确定新的机会和方法,以改善产品是客户细分提供给公司的一些用途。 它在Weblog数据银行系统(Chakraborty等)等许多领域发挥着重要作用。 图像分割(Lei等人。 所有2018 年; 庄等。 销售(Brusco等人。 al2017 ; Liuamp;Ong2008) , 城市规划(Prasanthamp;Hemalatha2015;Kapsuta等。 艾尔2018 年)。 在核心业务任务中如营销集群分析已成为主要应用之一。 为了实施有效的客户关系管理(CRM)和定位目标客户,客户分析和细分已经被广泛使用(Kimmelet。 2016年;Kim等人。 艾尔2016)。 在大型社交网络,生物网络和网络图中,检测集群和社区的问题最近引起了大量的关注,并引起 了相当大的兴趣(Leskovec等。 2010年)。 近年来,人们对在线产品推荐推荐系统的开发也越来越感兴趣(Dong等人。 所有2017年)。

聚类技术

本文重点研究的聚类技术,K-均值是最古老和广泛使用的算法之一,许多研究人员在不 同的领域对K- 均值进行了研究, 其中Forgey( 1965 )、Friedman和Rubin( 1967 )、MacQueen(1967)是值得注意的。 首先由Lloyd(1982)提出的K-means是其他聚类方法的基本方法,如模糊聚类(Alpaydin,2014)。 在K-均值中,根据聚类数随机选择点,然后根据点到质心的平方距离将每个点分配到最近的聚类(Kanungo等。 2002 年)。 K- means已成为新提出的方法的基准方法,并由于其简单、健壮、高效率和在各种类型数据 中的使用而在前10种挖掘算法中排名第二(Wu等人。 2008年)。 在研究中,借助关系模型显示了知识、知识管理及其对组织学习的有效性的术语的根源(Kasemsap2018)。 此外,从一个组织的原始事实到应用智慧的数据转换是通过在一项研究中倒置一个称为修订 知识金字塔的传统知识金字塔来解释的(Jennexamp;Bartczak,2013年)。

问题陈述和主要贡献

数字时代的新经济正通过机器学习和掌握数据不断得到改善。 营销和品牌策略,产品组合和行为经济学没有机器学习掌握运作严重障碍。 通过机器学习,营销人员在客户细分、内容提取、分类和客户沟通等任务中的增值生产力和产出正在得到提高。 在营销中,机器学习的最先进和最重要的技术之一是客户细分,其中聚类是一种有价值的技术。

在聚类中,具有某些相似的人口学或行为特征的客户被分组为片段。 目的是将具有相似个体的群体隔离开来,并通过比较剪影来分析K的两个值的提取知识。 通过对相似客户的细分来分析产品交易的流行程度,以通过提取知识来提高业务的生产力。

研究方法

在本节中,我们介绍了为实现最常见的K均值聚类技术和轮廓计算而执行的所有步骤,使用K=4和K=5的EXCEL扩展表,并分析了知识提取的改进。 我们有一个样本数据集,包括32个产品交易描述和324个购买100个客户关于这些交易的清单。

测量距离

我们首先创建一个按产品交易的客户矩阵,其中每个客户获得他们所接受的交易的1s栏和 他们没有的产品交易的0s栏。 我们使用枢轴表来创建这样的矩阵。 在创建矩阵后,我们将Pivot表与产品交易描述合并,以便它与客户的购买数据一起给出交易描述的综合视图。 为了开始聚类,我们首先选择K的值。在我们的例子中,我们不会追求更高的K值,因

为向少数群体中的人发布大量的产品交易会违背聚类的目的,所以我们从K=4的小值开始, 但是从K=4开始,什么是最好的四组客户? 我们浮动四个集群中心集群1通过集群4,最初所有的0s在这一点和集群中心可以放置在任何位置。 通过使用K均值聚类,我们希望这四个聚类中心的分布方式使每个客户与其壁橱聚类中心之间的距离最小化。 由于客户向量是二进制的,这些集群中心的值将在每个事务的0和1范围内。 根据勾股定理,通过取差,平方,求和,取平方根来计算客户与聚类中心的欧氏距离。 由于客户向量和聚类中心的维数超过两个,但所应用的距离的概念是相同的。 然而,由此产生的距离是一个数字。 我们计算所有客户的购买数据向量和集群中心之间的距离。

集群作业

在计算了客户与所有四个集群之间的距离后,我们将客户分配给最近的集群。 这是分两步完成的。 首先计算所有四个簇之间的最小距离,然后确定哪个簇中心与最小距离匹配。最初所有集群中心都有值0s,因此在这种情况下,所有四个集群中心和客户之间的最小距 离是相等的。

优化使用算法

现在,为了找到最佳位置(平均位置),对于集群中心,我们找到了集群中心的值,从而 使客户和指定集群之间的总距离最小化。 这种最小化

总距离是我们在Solver的帮助下解决的一个优化问题,正是最小化客户到其指定集群的总 距离的目标函数。 欧氏距离是非线性的,因为它的平方和平方根项,所以我们使用进化求解方法,这是有用的计算非线性函数,通过生成一些可行的解,反过来通过突变和丢弃性 能差的解来创建新的解,从而给我们最好的聚类中心位置。 决策变量是每个集群中心内的事务值,约束是集群中心的值应该在0和1范围内。

发现模式

当挖掘组时,对模式的洞察力被扩展,如第5节中的数字所示,这些数字代表了流行的交 易,并在表5和表8的帮助下,我们提取了关于客户为什么喜欢这样的交易的知识。 此外, 还创建了客户在特定集群中选择的交易列表,并了解了他们为什么喜欢这样的交易。 我们计算了K的两个值的一个称为剪影的分数,如表6所示,以验证聚类和提取的知识。

剪影计算和聚类验证

问题是,如果K中的K=4-表示聚类正确的数字? 用K的小值进行聚类并不意味着K的值是错误的,但可能会遗漏信息,这将有助于更有效地描述聚类。 我们计算所有客户之间的距离矩阵,然后计算客户与所有四个集群中的人的平均距离。 然后,我们根据计算的平均距离确定最近的和第二最近的客户集群。 还确定了客户到指定集群的平均距离,如果客户到指定集群的平均距离与最近集群的平均距离相同,则第二个最近集群是客户的相邻集群,否则最近的集群是邻近的集群。我们计算的分数称为轮廓为集群。 剪影是通过将客户与指定集群中的人的平均距离与相邻集群中的人的平均距离除以最大两个平均值

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[268962],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。