python毕业设计-基于Django和协同过滤算法的电影推荐系统（源码+数据库+说明文档）.zip_基于Python+MySQL+Django协同过滤算法的动漫推荐系统项目论文摘要资源-CSDN文库

共34个文件

pyc：16个

py：10个

csv：6个

版权申诉

python

毕业设计

django

113 浏览量 2024-05-26 12:39:44 上传评论收藏 35.48MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

movie-recommender-system-master.zip （34个子文件）

movie-recommender-system-master

controller.py 3KB

Application.py 3KB

ml-latest-small

ch_ratings_small.csv 67KB

en_movies_small.csv 39KB

ch_ratings.csv 15.87MB

ch_movies_small.csv 43KB

ch_movies.csv 59.52MB

en_ratings_small.csv 20KB

extraction.ipynb 3KB

new_user_recommender.py 1KB

extraction.py 2KB

recomender_core.py 10KB

new_user_page.py 10KB

svd_recomander.py 2KB

.gitignore 12B

show_page.py 963B

login_page.py 2KB

__pycache__

svd_recomander.cpython-310.pyc 1KB

Application.cpython-36.pyc 2KB

show_page.cpython-36.pyc 1KB

views.cpython-310.pyc 5KB

new_user_recommender.cpython-310.pyc 1KB

views.cpython-36.pyc 5KB

new_user_recommender.cpython-36.pyc 1KB

recomender_core.cpython-36.pyc 6KB

controller.cpython-310.pyc 2KB

new_user_page.cpython-36.pyc 6KB

Application.cpython-310.pyc 3KB

svd_recomander.cpython-36.pyc 1KB

new_user_page.cpython-310.pyc 6KB

recomender_core.cpython-310.pyc 7KB

controller.cpython-36.pyc 2KB

show_page.cpython-310.pyc 1KB

views.py 7KB

import pandas as pd import numpy as np def build_movie_infos_en(ratings_data_path, movies_data_path, save_path): # 载入数据 ratings_data = pd.read_csv(ratings_data_path) movies_data = pd.read_csv(movies_data_path) # 计算电影的评分次数和电影的平均得分 ratings_data['rating'] = ratings_data['rating'].astype(int) ratings_data = ratings_data[['userId', 'movieId', 'rating']] ratings_count_df = ratings_data.value_counts(subset=['movieId']).sort_index().to_frame().reset_index() ratings_count_df.columns = ['movieId', 'rating_count'] ratings_mean_df = ratings_data.groupby(by='movieId')['rating'].mean() ratings_mean_df = ratings_mean_df.to_frame().reset_index() count_rating_df = pd.merge(left=ratings_count_df, right=ratings_mean_df, on=['movieId']) # 数据处理，处理电影名称和年份, 返回电影名称 import re def split_name(df): name = re.search(r'^(.+)$[\d]{4}$$', df['title'].strip()) if name: return name.group(1).strip() else: return None # 从电影名中提取年份, 并转换为整数 def split_year(df): year = re.search(r'$([\d]{4})$$', df['title'].strip()) if year: return int(year.group(1)) else: return None items_data = pd.DataFrame() items_data['movieId'] = movies_data['movieId'] items_data['name'] = movies_data.apply(split_name, axis=1) items_data['year'] = movies_data.apply(split_year, axis=1) items_data = items_data.dropna() items_data['year'] = items_data['year'].astype(int) items_data.reset_index(drop=True, inplace=True) # 流程类型，提取所有流派 genres_set = set() for row in movies_data.itertuples(): genres = row.genres.split("|") genres_set = set(genres_set) | set(genres) genres_metrix = np.zeros((len(items_data), len(genres_set)), dtype=int) genres_df = pd.DataFrame(genres_metrix, columns=list(genres_set)) genres_df = pd.concat([items_data, genres_df], axis=1) items_df = pd.merge(left=count_rating_df, right=genres_df, on=['movieId']) # 设置每部电影的类型 for row in movies_data.itertuples(): genres = row.genres.split("|") items_df.loc[items_data['movieId'] == row.movieId, genres] = 1 items_df.to_csv(save_path, index=None) return items_df def build_movie_infos_ch(ratings_data_path, movies_data_path, save_path): # 载入数据 ratings_data = pd.read_csv(ratings_data_path) movies_data = pd.read_csv(movies_data_path) movies_data = movies_data[['movieId', 'name', 'year', 'genres']] movies_data.dropna(how='any', axis=0, inplace=True) # 计算电影的评分次数和电影的平均得分 ratings_data['rating'] = ratings_data['rating'].astype(int) ratings_data = ratings_data[['userId', 'movieId', 'rating']] ratings_count_df = ratings_data.value_counts(subset=['movieId']).sort_index().to_frame().reset_index() ratings_count_df.columns = ['movieId', 'rating_count'] ratings_mean_df = ratings_data.groupby(by='movieId')['rating'].mean() ratings_mean_df = ratings_mean_df.to_frame().reset_index() count_rating_df = pd.merge(left=ratings_count_df, right=ratings_mean_df, on=['movieId']) items_data = pd.DataFrame() items_data['movieId'] = movies_data['movieId'] items_data['name'] = movies_data['name'] items_data['year'] = movies_data['year'] items_data = items_data.dropna() items_data['year'] = items_data['year'].astype(int) items_data.reset_index(drop=True, inplace=True) # 流程类型，提取所有流派 genres_set = set() for row in movies_data.itertuples(): genres = row.genres.split("/") genres_set = set(genres_set) | set(genres) genres_metrix = np.zeros((len(items_data), len(genres_set)), dtype=int) genres_df = pd.DataFrame(genres_metrix, columns=list(genres_set)) genres_df = pd.concat([items_data, genres_df], axis=1) items_df = pd.merge(left=count_rating_df, right=genres_df, on=['movieId']) # 设置每部电影的类型 for row in movies_data.itertuples(): genres = row.genres.split("/") items_df.loc[items_df['movieId'] == row.movieId, genres] = 1 items_df.to_csv(save_path, index=None) return items_df def load_movie_infos(movie_info_path, ratings_data_path, movies_data_path): try: return pd.read_csv(movie_info_path) except: print("电影信息未找到，正在生成电影信息，请稍后...") # 生成电影信息, 这里可以选择中文或者英文 movie_infos = build_movie_infos_ch(ratings_data_path, movies_data_path, movie_info_path) print("电影信息建立完成") return movie_infos def load_data(data_path): # 设置字段类型和所需列 # dtype = {"userId": np.int32, "movieId": np.int32, "rating": np.float32} # cols = ['userId', 'movieId', 'rating'] # 加载数据集 # ratings_df = pd.read_csv(data_path, dtype=dtype) ratings_df = pd.read_csv(data_path) ratings_df = ratings_df[['userId', 'movieId', 'rating']] ratings_df['userId'] = ratings_df['userId'].astype(np.int32) ratings_df['movieId'] = ratings_df['movieId'].astype(np.int32) ratings_df['rating'] = ratings_df['rating'].astype(np.float32) return ratings_df def load_user_list(data_path): df = load_data(data_path) # 基于userId删除重复行,通过索引选取userId列，并将其转换为列表 user_list = df.drop_duplicates(subset=['userId'])['userId'].to_list() user_list = [str(i) for i in user_list] return user_list def build_train_data(train_df): from surprise import Reader from surprise import Dataset ratings_reader = Reader(rating_scale=(1, 5)) # 根据提供的reader对象将数据转换为适用于推荐系统的格式 train_data = Dataset.load_from_df(train_df, reader=ratings_reader) return train_data def build_model(train_data): from surprise import SVD from surprise.model_selection import GridSearchCV # 迭代次数（n_epochs）、学习率（lr_all）和正则化参数（reg_all） # param_grid = {'n_epochs': [45, 50, 55], 'lr_all': [0.02, 0.05], 'reg_all': [0.15, 0.2]} param_grid = {'n_epochs': [30, 45, 50], 'lr_all': [0.02, 0.05], 'reg_all': [0.15, 0.2]} # 创建了一个GridSearchCV对象gs，传入SVD模型、参数网格字典、评价指标（均方根误差RMSE和平均绝对误差MAE）以及交叉验证折数（cv=3）。这样就可以通过网格搜索在给定参数范围内找到最佳的模型参数 gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3) # 寻找最佳训练模型 gs.fit(train_data) # 获取通过网格搜索得到的最佳模型，通过索引'rmse'获取对应的SVD模型 svd_model = gs.best_estimator['rmse'] # 使用build_full_trainset方法从训练数据集中构建一个适用于SVD模型的完整训练集 fit_data = train_data.build_full_trainset() # 使用构建的完整训练集对SVD模型进行训练，即拟合模型 svd_model.fit(trainset=fit_data) return svd_model def save_model(model, save_path): from surprise.dump import dump try: # 使用dump函数将模型对象model保存到指定的文件路径save_path中。algo=model表示要保存的算法对象是model dump(save_path, algo=model) except Exception as e: print("保存失败，请再试一次吧") def load_model(model_path): from surprise.dump import load try: model = load(model_path) except: return None else: return model # train_data表示训练数据集，model表示已训练好的推荐系统模型 # 对所有用户进行评分预测 def predict_all(train_data, model): # 从训练数据集中构建一个适用于模型的完整训练集 fit_data = train_data.

评论收藏

内容反馈

版权申诉