# 0 推荐系统概述
该章节代码负责人: 潘云嵩 yunsong_nuaa@163.com、林琳 sophielinlin@outlook.com、陈浪 chenlangscu@163.com、邵晨光 506844874@qq.com
RecommendEngine新闻推荐引擎,有两个流程构成:
1 粗排:根据所有用户的点击行为,采用Item CF算法召回新闻,构成召回候选集。
2 精排:根据用户的点击行为,采用LDA的主题分布的余弦相似度对召回候选集做精排,精排的结果推送给用户
输入:用户ID
输出:文章ID
# 1 recommend.py 推荐新闻主类
推荐系统的主模块,由基于ITEM_CF实现的召回模块和基于LDA主题分布相似度实现的排序模块构成
运行脚本: python recommend.py,完成一次新闻推荐
# 2 config.py:配置文件
msyql配置参数
# 3 resource.py: 资源文件
模型文件,mysql实例
# 4 item_cf.py:基于物品的协同过滤
实现基于物品的协同过滤
# 5 news_sim_lda.py:基于LDA的 排序模型
实现基于LDA主题分布的文章相似度计算
# 6 mysql_dao.py:mysql工具类
封装mysql操作的工具类
# 7 train_lda_model.py 训练LDA模型
离线训练LDA模型
# 8 recsys.sql 存放新闻推荐系统所有数据的数据库导出文件
读者可利用此文件导入自己的mysql数据库
# 9 stopwords.txt
停用词词表
# 10 msyql表结构:
推荐系统数据由两个mysql表组成:存放新闻数据的表、存放用户点击行为
## 10.1 存放新闻的msyql表
### 表结构
+---------+------------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+---------+------------------+------+-----+---------+-------+
| newsid | int(10) unsigned | NO | PRI | NULL | |
| title | varchar(100) | NO | MUL | NULL | |
| label | varchar(20) | NO | MUL | NULL | |
| content | longtext | YES | | NULL | |
+---------+------------------+------+-----+---------+-------+
### 建表语句
CREATE TABLE `article` (
`newsid` int(10) unsigned NOT NULL,
`title` varchar(100) NOT NULL,
`label` varchar(20) NOT NULL,
`content` longtext,
PRIMARY KEY (`newsid`),
KEY `title` (`title`),
KEY `label` (`label`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
## 10.2 存放用户行为的msyql表
### 表结构
+------------+------------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+------------------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| userid | int(10) unsigned | NO | MUL | NULL | |
| newsid | int(10) unsigned | NO | MUL | NULL | |
| click_date | varchar(10) | NO | MUL | NULL | |
+------------+------------------+------+-----+---------+----------------+
### 建表语句
CREATE TABLE `user_click` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`userid` int(10) unsigned NOT NULL,
`newsid` int(10) unsigned NOT NULL,
`click_date` varchar(10) NOT NULL,
PRIMARY KEY (`id`),
KEY `userid` (`userid`),
KEY `newsid` (`newsid`),
KEY `click_date` (`click_date`)
) ENGINE=InnoDB AUTO_INCREMENT=1014 DEFAULT CHARSET=utf8
# 安装和运行 Tips:
## 1.安装mysql可通过以下脚本
sudo apt-get install mysql-server
## 2.配置root密码可通过
sudo mysql_secure_installation
## 3.创建数据库(可创建git仓库里同名的数据库)
create database recsys
## 4.导入数据库(git仓库里已创建好了相应的数据库和表以及数据,可直接导入使用)
mysql -u root -p recsys < recsys.sql
## 5.直接运行recommend.py 查看当前数据下的推荐结果,可修改代码里__main__的userid查看给其它用户的推荐结果。亦可修改数据库表里的内容或重新录入新的表单来体验不同的推荐结果。
没有合适的资源?快使用搜索试试~ 我知道了~
《白话人工智能与大数据》代码.zip
共340个文件
py:129个
png:49个
jpg:44个
需积分: 1 0 下载量 52 浏览量
2024-03-06
22:47:10
上传
评论
收藏 60.81MB ZIP 举报
温馨提示
《白话人工智能与大数据》代码.zip
资源推荐
资源详情
资源评论
收起资源包目录
《白话人工智能与大数据》代码.zip (340个子文件)
config 2KB
dqn_breakout.ckpt.data-00000-of-00001 15.33MB
聚类.docx 565KB
.~聚类.docx 162B
.gitignore 1KB
.gitignore 36B
.gitignore 13B
.gitignore 13B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
Digraph.gv 2KB
train-images-idx3-ubyte.gz 9.45MB
t10k-images-idx3-ubyte.gz 1.57MB
train-labels-idx1-ubyte.gz 28KB
t10k-labels-idx1-ubyte.gz 4KB
echarts.html 2KB
data.iml 1KB
FullConnect.iml 398B
img.iml 398B
dqn_breakout.ckpt.index 1KB
img-checkpoint.ipynb 72B
wow_pos.jpg 1.55MB
wow.jpg 1.54MB
test2.jpg 1MB
Larry_Page_0000.jpg 958KB
the_shipwreck_of_the_minotaur.jpg 807KB
ant_8178.583.jpg 749KB
sa_8080.427.jpg 749KB
abc_8080.427.jpg 749KB
Mark_Zuckerberg_0000.jpg 625KB
stata.jpg 425KB
rain_princess.jpg 280KB
africa.jpg 257KB
stata.jpg 230KB
02.jpg 230KB
la_muse.jpg 215KB
02.jpg 202KB
chicago.jpg 186KB
chicago.jpg 186KB
000057.jpg 170KB
aquarelle.jpg 160KB
bango.jpg 123KB
000003.jpg 120KB
wave.jpg 120KB
test1.jpg 119KB
chicago.jpg 113KB
000002.jpg 111KB
000004.jpg 100KB
chinese_style.jpg 97KB
test0.jpg 92KB
Larry_Page_0001.jpg 90KB
Bill_Gates_0001.jpg 89KB
udnie.jpg 86KB
cat.jpg 80KB
000006.jpg 78KB
000001.jpg 77KB
Bill_Gates_0002.jpg 74KB
Mark_Zuckerberg_0001.jpg 73KB
the_scream.jpg 54KB
Bill_Gates_0000.jpg 23KB
test4.jpg 21KB
hampson.jpg 18KB
Larry_Page_0002.jpg 7KB
loss.jpg 5KB
Mark_Zuckerberg_0002.jpg 5KB
echarts.min.js 730KB
README.md 4KB
README.md 2KB
README.md 2KB
README.md 2KB
README.md 1KB
README.md 1KB
README.md 1KB
README.md 1KB
README.md 1KB
README.md 1KB
README.md 976B
README.md 879B
README.md 815B
README.md 783B
README.md 781B
readme.md 692B
README.md 664B
README.md 664B
README.md 576B
README.md 535B
README.md 518B
README.md 502B
README.md 447B
README.md 431B
ReadMe.md 414B
ReadMe.md 402B
README.md 371B
ReadMe.md 294B
ReadMe.md 203B
共 340 条
- 1
- 2
- 3
- 4
资源评论
日刷百题
- 粉丝: 5295
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Arduino Nano的红外循迹小车源码(高分课设).zip
- 将MS SQL数据库表里的数据内容生成SQL执行语句
- 基于MATLAB的钢板表面缺陷检测系统
- MS SQL里生成行政区域县区信息表和相应数据
- delphi实现DBGrid全选和反选功能
- 25C11F41-2B2A-4D1A-AAA8-7C654526B129.pdf
- Android Studio Jellyfish(android-studio-2023.3.1.18-cros.deb)
- MVC+EF框架+EasyUI实现权限管理源码程序
- python第66-75天,Day66-75.rar
- python后端服务project-of-tornado.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功