毕业设计-基于协同过滤算法的个性化推荐系统-慈云数据

前言

课题背景和意义

实现技术思路

一、预备知识

二、基于SlopeOne的协同过滤推荐优化算法

三、基于改进Ｋ⁃ｍｅａｎｓ的协同过滤推荐优化算法

四、结论及展望

实现效果图样例

最后

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于协同过滤算法的个性化推荐系统

课题背景和意义

大数据时代下互联网的应用使人们的生活更加便捷与智能化。但随之而来的“信息过载”问题亟需解决，此时推荐系统应运而生。协同过滤作为个性化推荐系统中应用较为广泛的一种算法，因经常面临数据稀疏性和算法扩展性问题，近年来备受关注。因此，协同过滤算法的优化成为了国内外学者的研究热点。针对数据稀疏性问题，一些学者通过降维的方法来缓解稀疏性，提出了基于矩阵分解的迭代最小二乘加权正则化协同过滤算法，对传统矩阵分解模型加入正则化约束以防止过拟合；还有一些学者通过矩阵填充来缓解数据稀疏性. 针对算法扩展性问题，采用了Ｋ⁃ｍｅａｎｓ聚类、二分Ｋ⁃ｍｅａｎｓ聚类、模糊Ｋ⁃ｍｅａｎｓ聚类先对物品进行聚类再推荐的方法，进而提高了推荐的精度和可扩展性；上述方法推荐精度均得到显著提高，数据稀疏性和扩展性问题得到了有效改善。本文研究结论不仅可进一步丰富协同过滤推荐算法的现有理论成果，还可以为提高推荐系统的精度提供理论依据和决策参考。

实现技术思路

一、预备知识

SlopeOne算法

SlopeOne算法基本原理是计算不同物品间的一个评分差，用评分差预测最终用户对物品的评分。若将整个评分数据标记为Ｒ，主要分以下两步：

①在两个物品同时被评分的前提下，将两物品 i、j的评分差取均值，记做评分偏差：

其中，ｒｕｉ和ｒｕｊ表示用户ｕ对项目ｉ、ｊ的评分，Ｎ（ｉ）是对物品ｉ评过分的用户，｜Ｎ（ｉ）∩Ｎ（ｊ）｜是对物品ｉ、ｊ都评过分的用户数。

②根据用户历史评分和由上式子得出的评分偏差，预测用户对没有做出过评分的物品的分值。

基于Ｋ⁃ｍｅａｎｓ聚类的协同过滤推荐算法

设Ｘ＝｛ｘｉ｜ｘｉ∈Ｒｐ，ｉ＝１，２，…，ｎ｝为原数据集，每个数据由用户、项目、评分３部分组成。设目标用户为ｕ，用户集合是Ｕ＝｛ｕ１，ｕ２， …，ｕｍ｝，Ｋ⁃ｍｅａｎｓ聚类得出的用户集合可以表示为Ｕ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝，ｋ为聚类个数。算法步骤如下：

（１）在Ｘ中随机选出个样本作为初始簇心Ｍｉ（ｉ＝１，２，…，ｋ）；

（２）用初始簇心Ｍｉ（ｉ＝１，２，…，ｋ）对用户⁃项目评分矩阵Ｒｍ × ｎ执行经典Ｋ⁃ｍｅａｎｓ算法，得到ｋ个类；

（３）使用欧氏距离计算目标用户ｕ与ｋ个簇心间的距离，根据最小距离，找到ｕ所属的类别；

（４）在ｕ所属类中，计算ｕ与其他用户的相似性，获取ｕ的最近邻居集Ｎｕｊ（ｊ＝１，２，…，ｍ）；

（５）得到最近邻居集后，预测求得想要推荐给ｕ的项目的评分，由高到低排序后，把前Ｎ个项目推荐给ｕ。

二、基于SlopeOne的协同过滤推荐优化算法

为有效缓解数据稀疏性，选取ＭｏｖｉｅＬｅｎｓ１００ｋ数据集，数据集详情如表。

（实验环境为Ｗｉｎｄｏｗｓ８系统；硬件条件为ＣＰＵ２．３ＧＨＺ，４Ｇ内存，１００Ｇ；使用软件Ｐｙｔｈｏｎ３．７版本）我们选取９种不同方法进行稀疏矩阵的填充，并选用均方根误差（ＲＭＳＥ）来判定有效性。用全局均值法、用户平均法、物品平均法、用户活跃度＆物品不平均、用户活跃度＆物品平均、用户不平均＆物品流行度、用户平均＆物品流行度、用户活跃度＆物品流行度、SlopeOne这９种不同方法进行填充，其均方根误差见表：

从上表的结果可以看出，当使用SlopeOne方法进行填充时，其ＲＭＳＥ是最小的，说明使用该方法填充时误差较小。下面我们将采用SlopeOne方法对ＭｏｖｉｅＬｅｎｓ１００ｋ版本数据集进行填充，结果见表。

由表可知，进行了矩阵填充后，数据集的稀疏度变为６.37％，说明运用SlopeOne 填充的效果明显。使用填充后数据设计了两组对比实验，以验证有效性：

实验１

确定最佳聚类个数。在这一阶段的实验中，分别利用由ＳｌｏｐｅＯｎｅ填充前和填充后的数据，得到两个最佳Ｋ⁃ｍｅａｎｓ聚类个数。在确定过程中，我们选取平均绝对误差（ＭＡＥ）作为测量标准，当聚类个数以２为间隔，由２增加到２０时，根据ＭＡＥ的大小来确定出最佳聚类个数，为了保证推荐时选取的近邻数相同，将其固定为２５，以此增强ＭＡＥ值的可靠性。图中纵坐标代表ＭＡＥ值，横坐标是聚类个数。

实验结果表明：图中随着聚类个数从２增加到２０，在进行ＳｌｏｐｅＯｎｅ填充和未填充时，Ｋ⁃ｍｅａｎｓ不同聚类个数的ＭＡＥ值都呈现出先下降后上升的趋势，且波动幅度较小。两种情况的ＭＡＥ最低值都出现在ｋ＝８，因此最佳的聚类个数都是８。

实验２

推荐算法精度对比。我们采用三种算法来做对比试验，分别是：基于ＳｌｏｐｅＯｎｅ填充后的Ｋ⁃ｍｅａｎｓ协同过滤推荐、经典Ｋ⁃ｍｅａｎｓ协同过滤推荐和传统的协同过滤推荐算法。图中纵轴是ＭＡＥ值，横轴是近邻个数，以５为间隔从５增加到５０，结果如图所示。

由图可以看出，三种协同过滤推荐算法的ＭＡＥ值都随着最近邻个数的增加呈现出缓慢下降的趋势，且在邻居个数变化相同时，用ＳｌｏｐｅＯｎｅ填充后的Ｋ⁃ｍｅａｎｓ聚类协同过滤算法的ＭＡＥ值最小。因此，在推荐之前，先对评分矩阵进行填充，这样能增加一些用户评分数据，以便在推荐过程中发掘出更多的可供推荐的项目，填充完毕的矩阵再对用户进行Ｋ⁃ｍｅａｎｓ聚类，这样是为了能缩小近邻寻找范围，类中的所有用户相比类外的用户与目标用户具有更高的相似程度，在后续的近邻匹配选取时也就更便利。

三、基于改进Ｋ⁃ｍｅａｎｓ的协同过滤推荐优化算法

基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法

由于第２节中用到的传统Ｋ⁃ｍｅａｎｓ聚类算法的初始中心和聚类个数ｋ均是随机产生的，其合理性会影响聚类结果。首先给出如下定义：

任意两个数据点间距离的平均值为：

其中，ｄ（ｘｉ，ｘｊ）是任意两点之间的欧式距离，ｎ表示数据点的个数。定义２定义邻域半径Ｒ为：其中，ｄ（ｘｉ，ｘｊ）是任意两点之间的欧式距离，ｎ表示数据点的个数。

ｒｅｌｅＲ是一个用来调节的系数，ｒｅｌｅＲ取０．１３时，聚类效果最好。

定义３点的聚集度定义：

定义４簇类平均距离定义为：

簇类平均距离Ｇａｖｇｄ（ｘｉ）衡量的是元素密集度，数值越小，说明在目标用户ｘｉ所在类中，数据点之间越紧凑。

定义５聚集度距离Ｇ（ｘｉ）定义为：

Ｇ（ｘｉ）是通过比较聚集度Ｄｐ（ｘｉ）来确定的，用它来衡量不同簇之间的差异性。在所有的点中，当ｘｉ的聚集度最大时，Ｇ（ｘｉ）是ｘｉ与剩余所有点之间的最大距离，反之则为ｘｉ与剩余所有点之间的最小距离。

定义６中心聚集参数定义为：

基于以上概念，我们给出基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法流程：输入：所有的数据集点ｘ１，ｘ２，…，ｘｎ输出：聚类结果

（１）计算出每个点的中心聚集参数 ω（ｘｉ）；

（２）选出使得 ω（ｘｉ）最大的点ｘｉ，由它做为第一个初始聚类中心，计算出ｘｉ与剩余点间的距离，将得到的距离值与邻域半径Ｒ作比较，若距离小于Ｒ则说明可以与ｘｉ划为一类，因此将从数据点中除去这些点，若距离大于Ｒ，则说明与ｘｉ的距离过远，不适宜与ｘｉ归为一类，因此将这些点保留下来，进行下一步；

（３）在第（２）步中保留下的点里再选出 ω（ｘｉ）最大的点，作为第２个聚类中心，再次操作步骤（２）；

（４）一直重复操作步骤（３），当数据集中的点ｘ１，ｘ２，…，ｘｎ全部去除为止；

（５）输出ｋ个最优初始中心Ｍｉ（ｉ＝１，２，…，ｋ）；

（６）利用初始簇心Ｍｉ，对Ｒｍ × ｎ执行Ｋ⁃ｍｅａｎｓ算法，将数据集分成ｋ类；循环执行Ｋ⁃ｍｅａｎｓ算法，直至其准则函数收敛，得到最终聚类结果；

为验证上述算法的有效性，我们选取以下ＵＣＩ数据集进行验证，同时选取的评价标准有：调整后的兰德指数（ＲＩ）、互信息（ＭＩ）以及Ｆｏｗｌｋｅｓ⁃Ｍａｌｌｏｗｓ指标。

ＵＣＩ数据集

调整兰德指数指标对比

互信息指标对比：

Ｆｏｗｌｋｅｓ⁃Ｍａｌｌｏｗｓ指标对比：

由图，可以看出基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法得到的相关数值均比经典Ｋ⁃ｍｅａｎｓ聚类算法值要高，并且在Ｗｉｎｅ和Ｓｏｙｂｅａｎ两个数据集上的表现更为明显。因此通过此实验表明，基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法具有较好的聚类效果。

基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ协同过滤推荐算法

把基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法用于协同过滤推荐过程中，为验证改进后的算法在推荐上的效果，为方便起见，我们从ＭｏｖｉｅＬｅｎｓ１００ｋ数据中随机选取了１８９名用户的评分数据，并按２：８分为测试集和训练集，设计了如下两组对比实验：

实验１

确定最佳聚类个数。在这一阶段的实验中，需要得到两个最佳聚类个数。首先执行基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ算法，得出最佳的聚类个数是１９；其次需要判定经典Ｋ⁃ｍｅａｎｓ算法的最佳聚类个数，选取的评价指标是平均绝对误差（ＭＡＥ），当聚类个数以２为间隔，由２增加到２０时，根据ＭＡＥ的大小来确定出最佳聚类个数，为了保证推荐时选取的近邻数相同，将其固定为２５，以此增强ＭＡＥ值的可靠性。

图表明：随着聚类个数的增加，ＭＡＥ值呈先下降后上升趋势，在聚类数ｋ＝１６时最低。因此对经典Ｋ⁃ｍｅａｎｓ算法而言，最佳聚类个数是１６，从而保证获取有效的分组，提高在近邻选择时的便利性和可靠性，取得较好的推荐效果。

实验２

推荐算法精度对比。我们采用三种算法来做对比试验，分别是：基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ协同过滤推荐算法、基于Ｋ⁃ｍｅａｎｓ的协同过滤算法与传统的协同过滤推荐算法。下图中纵轴是ＭＡＥ值，横轴是近邻个数，以５为间隔从５增加到５０。

由图可以看出，进行对比的三种协同过滤推荐算法它们的ＭＡＥ值都呈现先下降后上升的趋势，整体上随着最近邻个数的增加而降低，且在同样的邻居个数变化的前提下，基于中心聚集参数改进Ｋ⁃ｍｅａｎｓ协同过滤推荐算法的ＭＡＥ值最低。ＭＡＥ值越低表明推荐误差越小，所以当目标用户的近邻数不断增加时，推荐准确度也随之提高。因此，基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ协同过滤推荐算法的推荐效果较好。

四、结论及展望

本文主要从两个角度对个性化推荐系统中的协同过滤推荐算法进行了优化。首先，基于ＳｌｏｐｅＯｎｅ算法对缺失数据进行填充，提出了基于ＳｌｏｐｅＯｎｅ的协同过滤推荐优化算法。其次，提出了一种基于中心聚集参数的改进Ｋ⁃ｍｅａｎｓ优化算法，并将该算法用于协同过滤推荐中。

实现效果图样例

购物软件的个性化推荐：

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助，疑难解答，欢迎打扰！

毕业设计-基于协同过滤算法的个性化推荐系统

前言

课题背景和意义