一种改进的基于用户相似度优化的协同推荐算法外文翻译资料

 2023-03-15 04:03

一种改进的基于用户相似度优化的协同推荐算法

摘 要

传统的协同过滤推荐存在数据稀缺性、冷启动、推荐准确性和及时性等问题,如何提高推荐的效率和质量是协同推荐中的一个关键问题。在传统的协同过滤算法中,对不同的用户计算相似度时有时可能会忽略不同用户对于所有项目的评分尺度。针对这一问题提出了调整余弦相似度算法、皮尔逊相似度算法等算法进行优化,但仍存在同一项目不同用户的单项评分量表不同的问题,即当用户在公共集合上的得分向量存在显著差异时,可能会产生类似的结果向量结果。这种现象的大量存在直接影响到用户相似度计算的准确性,还会影响目标用户的预测分数准确性。针对上述问题,又提出了一种改进的基于用户相似度优化的协同推荐算法,即在传统的余弦相似度算法中增加了一个平衡因子,用于计算不同用户之间的项目评分量表差异。最合适的平衡因子阈值可以通过实验获得,同样,一系列合理的实验可以验证所提出算法基于该阈值的有效性。实验结果表明,提出的基于用户相似度的改进协同过滤算法显著提高了用户相似度的准确率,并得到更好的推荐结果。

关键词:协同推荐,用户相似性,评分量表差异,平衡因子

1引言

协同过滤推荐系统是个性化推荐技术中推荐技术最成功的应用之一。随着个性化推荐技术的飞速发展,个性化推荐为电子商务带来了巨大的商业利益,它以高效、准确、个性化的特点服务于社会生活的各个领域。在各行业研究人员的共同努力下,这项技术的研发从未停止过。个性化推荐技术日趋成熟,并且协同过滤技术成为最广泛的推荐技术之一。随着商品数量和网络用户的不断增加,协同过滤推荐技术面临着时效性和数据稀缺性等多重挑战,但这并没有完全影响协同过滤技术的普及。研究人员提高了协同过滤的质量,如基于聚类的协同过滤、概率的协同过滤算法、基于神经网络的协同过滤、协同过滤、矩阵分解、基于各种模型(例如概率模型、贝叶斯模型抽象、最大熵模型、吉布斯抽象、线性回归)的矩阵分解协同过滤。

在这些研究的基础上,本文利用用户评分历史信息、用户之间的单次评分数据差异,结合传统的用户相似度度量算法,提出了基于用户相似度改进的协同推荐算法,并通过实验验证了协同推荐算法的可行性和性能。

2相关成果

协同过滤推荐系统是目前应用最广泛、最流行、最成功、最著名的个性化推荐系统。这些年来,个性化推荐的相关研究包括误差反映模型、奇异值方法等。Tapestry系统是一个基于协同过滤的短信推荐系统,主要用于新闻和邮件。主要用于新闻和信息推荐的GroupLens系统是一类自动的协同过滤系统。Fan等人提出了一种将基于内容的算法与用户活动相结合的协同过滤算法,有效优化了数据稀疏性问题。K Zhao提出了一种基于用户评分和协同过滤的项目集合,以提高传统协同过滤算法的效率。Li ZL等提出了一种基于改进蚁群算法的动态协同过滤推荐方法,可以更准确地表示真实的用户特征。

协同过滤推荐算法的基础是相似用户的相似偏好,发现协同的目标受众是协同过滤算法的核心步骤之一。为了提高协同过滤推荐技术的准确性、解决冷启动问题、降低计算复杂度,学者们在用户相似度计算和最近邻用户选择方面进行了大量的研究。田秋提出了一种面向项目的推荐算法,重点解决了冷启动问题和热门商品导致的推荐准确性问题。

Linas Baltrunas和Francesco Ricci提出了基于项目的上下文感知拆分协同过滤算法,该算法利用矩阵分解合成数据集和相邻CF将项目拆分为两个上下文,然后推荐系统进行条件和评估。推荐系统可以根据用户过去的行为信息建立用户兴趣模型,并通过个性化推荐算法向用户推荐其行为尚未产生的商品。为了提高协同过滤推荐的质量,研究人员提出了多种推荐算法。例如,Piraste通过使用信息和电影导演类型减少了矩阵稀缺性,并解决了冷启动问题,当然这需要使用额外的信息和导演类型;Pitsilis通过使用系统用户评级数据建立了一种假设的信任关系,这样可以解决一些冷启动问题和稀疏问题,但这种方法中的信任关系不是真正的社交网络中的信任关系;Kumar使用矩阵分解技术来降低矩阵的维数以提高推荐系统的准确性;Tsai和Hung提出了一种分阶段评分预测方法,该方法首先使用初始评分矩阵的聚类方法对用户和商品进行聚类,然后在早期商品聚类结果的基础上使用加权非负矩阵分解法对商品进行预测和推荐。

Zhang等人提出了一种应用于用户协作推荐的聚类算法。近年来,多领域学习已成为一个新的研究方向,有许多学者开始关注学习方法,以将应用迁移到协同过滤算法。迁移学者提出了许多学习方法,并提出了相应的协同过滤算法。有基于模型的迁移方法,如评级矩阵生成模型、RMG-M、集体矩阵分解、CMF、坐标系Ttansfer、CST等。此外,还存在基于样本的迁移方法,如通过综合因子分解进行转移的方法、TIF。

也有一些学者基于改进的社会网络结构进行相似度计算。然而,随着互联网用户的快速增长,用户之间距离的计算复杂度也随之快速增长。这种方式在一定程度上提高了推荐算法的性能,缓解了冷启动问题,更重要的是,它为研究人员打开了一个全新的视角。

许多研究人员试图从不同角度优化数据挖掘、机器学习和数据集成的效率。这些研究在一定程度上解决了协同过滤算法中的冷启动和数据稀疏问题,提高了推荐性能。然而,它们在计算用户相似度时都没有考虑到大量现象的存在。当两个用户面对评分向量和分数有很大差异时,很容易得到一个相似的和向量,从而导致用户获得较高的相似度。假设用户分别对两个向量打分,如图1所示:

图1不同和向量的比较

显然,从图1可以看出,向量之间存在很大的差异。但它们的和向量具有高度相似性。在实际数据中存在大量此类数据,如果仅仅使用简单的调整余弦相似度算法来计算用户相似度,必然会导致大量的用户相似度计算偏差。

有鉴于此,学者们提出了调整余弦相似度算法(ACSA)和皮尔逊相似度算法(PSA),这两种算法考虑了用户之间的评分等级差异。实验证明了这两种算法在一定程度上提高了用户相似度的准确性。

3.基于用户的协同过滤算法

基于用户的协同过滤算法首先需要计算目标用户与其他用户之间的相似度,然后将这些相似度较高的最近用户组成邻居集,针对邻点集中的个体预测目标用户的所有评分。最后按降序计算分数,按降序选择推荐给目标用户的前N项分数。

3.1余弦相似算法

在计算用户相似度时,用户之间的相似度度量主要有三种,即标准余弦相似度算法、调整余弦相似度算法和皮尔逊相似度算法。

余弦相似性算法:

调整后的余弦相似性算法:

皮尔逊相似性算法:

等式(1)-(3):是用户对项目的评级。此处是用户评分的平均值。表示用户和共同评估的项目。是用户评级的项目集。是用户评级的项目。

3.2生成邻居集

邻居集是和当前目标用户具有相似偏好的用户集合。在基于用户的协同推荐系统中,通常采用K-最近邻(KNN)技术来选择邻域。它使用相似度作为权重来选择top-K用户作为目标用户的邻居集。

3.3生成推荐集

选择目标用户的邻居集后,结合项目的所有邻居分数和用户之间的相似度,预测目标用户在测试项目上的分数。从分数集中选择前N名记录作为推荐结果。假设目标用户为u,测试程序为i,i的预测分数为:

等式(4):Nu是用户u和Riota;的最近邻集合,i是用户l对项目i的评分。

4改进的基于用户相似度的过滤算法

准确地找到目标用户的协同邻居集是协同过滤算法的核心。传统的基于用户的协同过滤算法通过计算两个用户之间的相似度,找到目标用户的前K个最近邻,然后通过最近邻实现推荐。因此用户相似度算法的准确性将直接影响推荐算法的性能。然而,传统的余弦相似度算法在计算用户相似度时忽略了一个普遍的现象:当两个用户的得分向量和单个得分相差较大时,也很容易得到一个相似的和向量,进而导致用户获得较高的相似度。改进的协同推荐算法引入了一个平衡因子,它考虑了邻点集用户之间的单一差异。因此,为了得到一组具有更好推荐质量的相似用户,我们需要结合传统算法并提出相似的平衡因子。

为了证明这种现象的存在,我们假设用户1的得分向量为,用户2的得分向量为。

项目中用户1的评级和用户2的评级差向量为。下图比较了它们的向量:

图2不同和向量的比较

如图2所示,当调整后的余弦相似度算法和皮尔逊相似度算法在单个项目上的得分在项目集合上存在较大差异时就会出现用户相似度较高的现象。虽然这种现象是基于用户的平均得分,有一定的合理性,但即使得到的结果具有高度的相似性也不是正常现象。在数据量大的情况下,这种现象的发生也是合理的,因此也有必要对这种现象进行改进。

4.1平衡系数

基于用户的协同过滤推荐算法在计算用户相似度时存在用户相似度高而用户的单一评分量表差异较大的问题。目前提出的算法没有将用户单个评分量表的差异作为权重来平衡相似度计算结果。针对这一问题,本文提出了平衡因子的概念,在用户相似度计算中考虑了用户评分量表的差异弥补传统相似度计算方法的不足。用户Ua和用户Ub之间的刻度差计算如下:

平衡系数的计算如下:

其中sumDiffer(Ua,Ub)是用户Ua和用户Ub之间的尺度差异,omega;(Ua,Ub)是用户Ua和用户Ub之间的平衡因子,lambda;是平衡因子的权重指数,需要反复修正才能得到相对准确的值,Ia,b是用户Ua和Ub共同评估的项目集,R是用户对项目的评分,M是Ia,b的计数。通过计算,我们可以得到(omega;(Ua,Ub)isin; [0,4],omega;(Ua,Ub)isin;[0,1])。当用户之间的得分差异omega;(Ua,Ub)较低时,本文提出的平衡因子omega;(Ua,Ub)趋于1。这样对初始相似度计算的结果影响较小。然而,用户之间的得分差异越大,omega;(Ua,Ub)越小。所以也需要对传统的余弦相似度算法计算的结果进行平衡,才能得到更准确的用户间相似度。

4.2改进的相似性算法

这里,改进的用户相似度计算方法Imp_sim(Ua,Ub)基于传统的调整余弦相似度算法,即在结果中添加平衡索引omega;(Ua,Ub),然后利用相似度计算结果邻域集,最后根据公式(2)推荐方案。

用户相似度计算流程图如下图3所示。

图3用户相似度计算流程图

用户相似度计算过程可以离线运行。离线运行减少推荐运行时间,提高推荐速度,解决了推荐的实时性问题。

5实验结果与分析

为了与传统的协同过滤推荐算法进行比较,验证改进的协同推荐算法的优越性,我们进行了以下实验设计。

5.1数据集

在实验中,我们使用了来自MovieLens推荐系统的数据。MovieLens是一个基于网络的研究推荐系统,于1977年秋季首次推出。每周都有数百名用户访问MovieLens,对电影进行评分并获得推荐。MovieLens数据集包含超过10万个收视率、超过940个用户和1680部电影。在该数据集中,用户得分在1-5之间,“5”表示“非常喜欢”,“1”表示“不喜欢”,数据稀疏度为93.7%。我们随机选取10000个MovieLens数据集的评分进入本实验,并随机分为70%和30%,其中30%被选为测试集的一部分,其余70%被选为训练集的一部分。

5.2指标

推荐系统的准

剩余内容已隐藏,支付完成后下载完整资料


An improved collaborative recommendation algorithm

based on optimized user similarity

Keywords: Collaborative recommendation, User similarity, Rating scale difference, Balance factor

1 Introduction

Collaborative filtering recommendation system is one of the most successful application of the recommended techniques among the personalized recommendation technologies. With the rapid development of personalized recommendation technology, personalized recommendations for e-commerce has brought enormous commercial interests, and it serves the public in all areas of social life for the efficient, accurate and personalized features. By the joint efforts of researchers of all the industries, the research and development of this technology have never stopped. Personalized recommendation technology has become increasingly mature, and collaborative filtering technology becomes one of the most widely recommended technique. With the increasing commodities quantities and network users, collaborative filtering recommendation technology faces multiple challenges, such as timeliness and data scarcities, but this does not affect the popularity of collaborative filtering technology totally. Researchers improve their quality of collaborative filtering, such as collaborative filtering based on clustering, the probability of collaborative filtering algorithms, collaborative filtering based on neural networks, collaborative filtering, matrix decomposition, based on a variety of models such as the probability model, Bayes model abstraction, maximum entropy model, Gibbs abstract, linear regression and also shine.
Based on these studies, the paper takes advantage of user ratings history information, a single score data discrepancies between users and the combination with traditional user similarity measure algorithm, proposed collaborative recommendation algorithm based on the improvements of user similarity, and it verified the feasibility and performance improvements of collaborative recommendation algorithm through experiments.
2 Related works
Collaborative filtering recommendation system is the most extensive personalized recommendation application, the most popular, the most successful and most famous recommendation system by far. The related research on personalized recommendations during these years include error reflecting the model [1], a project-based approach and singular value method [2] and so on. Tapestry system is a recommended filtration system which is mainly used news and mail; it is a research-based collaborative filtering recommendation system messages [3]. GroupLens mainly used for news and information to recommend is an automatic type of collaborative filtering systems [4]. Fan et al. proposed a collaborative filtering algorithm combining content-based algorithm and user activity to optimize the data sparseness problem effectively [5]. K Zhao presents a collection of items based on user ratings and collaborative filtering to improve the efficiency of traditional collaborative filtering algorithm [6]. Li ZL et al. proposed a dynamic collaborative filtering recommendation method based on improved ant colony algorithm; it can represent the real user features more accurately [7].

The basement of collaborative filtering recommendation algorithm is similar preferences of similar users. Finding synergy target audience is one of the core steps of collaborative filtering algorithm. User-based collaborative filtering algorithm is used to find the target userrsquo;s nearest neighbor to coordinate target users. In order to improve the accuracy of collaborative filtering recommendation technology, solve the cold start problem and reduce the computational complexity, scholars in the user similarity computing and nearest neighbor users selected aspects of a lot of research. Tian Qiu proposed an item-oriented recommendation algorithm [4]; it focused on solving the problem of accuracy in recommendation caused by the problem of cold start and popular items.

Linas Baltrunas and Francesco Ricci proposed project-based context-aware splitting collaborative filtering algorithm, which will split the project into two contexts, condition and assessment with the matrix decomposition synthetic data sets and neighbor CF. Recommended system can establish the userrsquo;s interest model based on usersrsquo; past behavior information and recommend the goods that their behavior had not yet produced to users by personalized recommendation algorithm. In order to improve the quality of collaborative filtering recommendation, researchers have proposed a variety of recommendation algorithm. For example, Piraste reduced the matrix scarcities and solved the problem of cold start through the use of information and the type of film directors [5], which requires the use of additional information and directing Genre; Pitsilis established a hypothetical trust relationship through the usage of a system user ratings data. By this way you can solve some cold-start problems and scarcities problems [6], but the trust relationships in this method is not the true social networks problems; Kumar used a matrix decomposition technique [7] to reduce the dimension of the matrix to improve the accuracy of recommendation systems; Tsai and Hung proposed a phased score predicting method [8], which used clustering method of initial scoring matrix to cluster users and merchandise first, and then predicted and recommended the commodity by the weighted non-negative matrix factorization method on the results of earlier commodity clustering.
Zhang et al. proposed a clustering algorithm which applied to the userrsquo;s collaborative recommendation [9]. In recent years, multiple areas of learning have become a new research direction [10,11]; there have been many scholars who began to focus on learning methods to migrate applications to collaborative filterin

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[595964],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。