使用Python构建电影推荐系统

WBOY

发布时间：2023-04-12 13:13:07

2530人浏览过

来源于51CTO.COM

转载

在日常数据挖掘工作中，除了会涉及到使用Python处理分类或预测任务，有时候还会涉及推荐系统相关任务。

推荐系统用于各个领域，常见的例子包括视频和音乐服务的播放列表生成器、在线商店的产品推荐器或社交媒体平台的内容推荐器。在这个项目中，我们创建一个电影推荐器。

协同过滤通过收集许多用户的偏好或品味信息，对用户的兴趣进行自动预测(过滤)。到目前为止，推荐系统已经发展很长一段时间了，它们的模型基于各种技术，如加权平均、相关性、机器学习、深度学习等等。

自 1995 年以来，Movielens 20M dataset 拥有超过 2000 万个电影评级和标记活动。在本文中，我们将从movie.csv & rating.csv文件中检索信息。使用Python库：Pandas, Seaborn, Scikit-learn和SciPy，使用k-近邻算法中的余弦相似度训练模型。

以下是该项目的核心步骤：

导入和合并数据集并创建 Pandas DataFrame
添加必要的特征来分析数据
使用 Seaborn 可视化数据并分析数据
通过设置阈值过滤无效数据
创建一个以用户为索引、以电影为列的数据透视表
创建 KNN 模型并输出与每部电影相似的 5 个推荐

导入数据

导入和合并数据集并创建 Pandas DataFrame

MovieLens 20M 数据集自 1995 年以来超过 2000 万的电影评级和标记活动。

# usecols 允许选择自己选择的特征，并通过dtype设定对应类型
movies_df=pd.read_csv('movies.csv', 
usecols=['movieId','title'], 
dtype={'movieId':'int32','title':'str'})
movies_df.head()

使用Python构建电影推荐系统

ratings_df=pd.read_csv('ratings.csv',
 usecols=['userId', 'movieId', 'rating','timestamp'],
 dtype={'userId': 'int32', 'movieId': 'int32', 'rating': 'float32'})
ratings_df.head()

使用Python构建电影推荐系统

检查是否存在任何空值以及两个数据中的条目数。

# 检查缺失值
movies_df.isnull().sum()

movieId 0

title 0

dtype: int64

ratings_df.isnull().sum()

userId 0

movieId 0

rating 0

timestamp 0

dtype: int64

print("Movies:",movies_df.shape)
print("Ratings:",ratings_df.shape)

Movies: (9742, 2)

Ratings: (100836, 4)

合并列上的数据帧 'movieId'

# movies_df.info()
# ratings_df.info()
movies_merged_df=movies_df.merge(ratings_df, on='movieId')
movies_merged_df.head()

使用Python构建电影推荐系统

现在已经成功合并了导入的数据集。

添加衍生特征

添加必要的特征来分析数据。

通过按电影标题对用户评分进行分组来创建'Average Rating' & 'Rating Count'列。

movies_average_rating=movies_merged_df.groupby('title')['rating']
 .mean().sort_values(ascending=False)
.reset_index().rename(columns={'rating':'Average Rating'})
movies_average_rating.head()

使用Python构建电影推荐系统

movies_rating_count=movies_merged_df.groupby('title')['rating']
.count().sort_values(ascending=True)
 .reset_index().rename(columns={'rating':'Rating Count'}) #ascending=False
movies_rating_count_avg=movies_rating_count.merge(movies_average_rating, on='title')
movies_rating_count_avg.head()

使用Python构建电影推荐系统

目前已经创建了 2 个新的衍生特征。

数据可视化

使用 Seaborn 可视化数据：

经过分析发现，许多电影在近 10 万用户评分的数据集上都有完美的 5 星平均评分。这表明存在异常值，我们需要通过可视化进一步确认。
多部电影的评分比较单一，建议设置一个评分门槛值，以便产生有价值的推荐。

使用 seaborn & matplotlib 可视化数据，以便更好地观察和分析数据。

将新创建的特征绘制直方图，并查看它们的分布。设置 bin 大小为80，该值的设置需要具体分析，并合理设置。

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

# 导入可视化库
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(font_scale = 1)
plt.rcParams["axes.grid"] = False
plt.style.use('dark_background')
%matplotlib inline

# 绘制图形
plt.figure(figsize=(12,4))
plt.hist(movies_rating_count_avg['Rating Count'],bins=80,color='tab:purple')
plt.ylabel('Ratings Count(Scaled)', fontsize=16)
plt.savefig('ratingcounthist.jpg')

plt.figure(figsize=(12,4))
plt.hist(movies_rating_count_avg['Average Rating'],bins=80,color='tab:purple')
plt.ylabel('Average Rating',fontsize=16)
plt.savefig('avgratinghist.jpg')

使用Python构建电影推荐系统

图1 Average Rating直方图

使用Python构建电影推荐系统

图2 Rating Count的直方图

现在创建一个joinplot二维图表，将这两个特征一起可视化。

plot=sns.jointplot(x='Average Rating',
 y='Rating Count',
 data=movies_rating_count_avg,
 alpha=0.5, 
 color='tab:pink')
plot.savefig('joinplot.jpg')

使用Python构建电影推荐系统

Average Rating和Rating Count的二维图

分析

图1证实了，大部分电影的评分都是较低的。除了设置阈值之外，我们还可以在这个用例中使用一些更高百分比的分位数。
直方图 2 展示了“Average Rating”的分布函数。

数据清洗

运用describe()函数得到数据集的描述统计值，如分位数和标准差等。

pd.set_option('display.float_format', lambda x: '%.3f' % x)
print(rating_with_RatingCount['Rating Count'].describe())

count 100836.000
mean58.759
std 61.965
min1.000
25% 13.000
50% 39.000
75% 84.000
max329.000
Name: Rating Count, dtype: float64

设置阈值并筛选出高于阈值的数据。

popularity_threshold = 50
popular_movies= rating_with_RatingCount[
rating_with_RatingCount['Rating Count']>=popularity_threshold]
popular_movies.head()
# popular_movies.shape

使用Python构建电影推荐系统

至此已经通过过滤掉了评论低于阈值的电影来清洗数据。

创建数据透视表

创建一个以用户为索引、以电影为列的数据透视表

为了稍后将数据加载到模型中，需要创建一个数据透视表。并设置'title'作为索引，'userId'为列，'rating'为值。

import os
movie_features_df=popular_movies.pivot_table(
index='title',columns='userId',values='rating').fillna(0)
movie_features_df.head()
movie_features_df.to_excel('output.xlsx')

使用Python构建电影推荐系统

接下来将创建的数据透视表加载到模型。

建立 kNN 模型

建立 kNN 模型并输出与每部电影相似的 5 个推荐

使用scipy.sparse模块中的csr_matrix方法，将数据透视表转换为用于拟合模型的数组矩阵。

from scipy.sparse import csr_matrix
movie_features_df_matrix = csr_matrix(movie_features_df.values)

最后，使用之前生成的矩阵数据，来训练来自sklearn中的NearestNeighbors算法。并设置参数：metric = 'cosine', algorithm = 'brute'

from sklearn.neighbors import NearestNeighbors
model_knn = NearestNeighbors(metric = 'cosine',
 algorithm = 'brute')
model_knn.fit(movie_features_df_matrix)

现在向模型传递一个索引，根据'kneighbors'算法要求，需要将数据转换为单行数组，并设置n_neighbors的值。

query_index = np.random.choice(movie_features_df.shape[0])
distances, indices = model_knn.kneighbors(movie_features_df.iloc[query_index,:].values.reshape(1, -1),
n_neighbors = 6)

最后在 query_index 中输出出电影推荐。

for i in range(0, len(distances.flatten())):
if i == 0:
print('Recommendations for {0}:n'
.format(movie_features_df.index[query_index]))
else:
print('{0}: {1}, with distance of {2}:'
.format(i, movie_features_df.index[indices.flatten()[i]],
distances.flatten()[i]))

Recommendations for Harry Potter and the Order of the Phoenix (2007):

1: Harry Potter and the Half-Blood Prince (2009), with distance of 0.2346513867378235:
2: Harry Potter and the Order of the Phoenix (2007), with distance of 0.3396233320236206:
3: Harry Potter and the Goblet of Fire (2005), with distance of 0.4170845150947571:
4: Harry Potter and the Prisoner of Azkaban (2004), with distance of 0.4499547481536865:
5: Harry Potter and the Chamber of Secrets (2002), with distance of 0.4506162405014038:

至此我们已经能够成功构建了一个仅基于用户评分的推荐引擎。

总结

以下是我们构建电影推荐系统的步骤摘要：

导入和合并数据集并创建 Pandas DataFrame
为了更好分析数据创建衍生变量
使用 Seaborn 可视化数据
通过设置阈值来清洗数据
创建了一个以用户为索引、以电影为列的数据透视表
建立一个 kNN 模型，并输出 5 个与每部电影最相似的推荐

写在最后

以下是可以扩展项目的一些方法：

这个数据集不是很大，可以在项目中的包含数据集中的其他文件来扩展这个项目的范围。
可以利用' ratings.csv' 中时间戳，分析评级在一段时间内的变化情况，并且可以在解析我们的模型时，根据时间戳对评级进行加权。
该模型的性能远优于加权平均或相关模型，但仍有提升的空间，如使用高级 ML 算法甚至 DL 模型。

Dash 应用中多选下拉框导致回调失效的常见原因与修复方案

Python Scrapy项目结构解析_items/pipelines/middlewares/settings各文件作用

Python Django连接MySQL_修改默认SQLite配置DATABASES字典与执行数据库迁移操作

Python Flask分页怎么实现_调用SQLAlchemy自带的paginate对象方法应用列表分页逻辑

Python如何比较两文件_filecmp模块对比文件差异与哈希校验

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04