没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
搜索记录频繁模式挖掘 这是一个《大数据挖掘技术》@复旦课程项目,试图从搜狗实验室用户查询日志数据(2008)中找出搜索记录中有较高支持度关键词的频繁二项集。在实现层面上,我搭建了一个由五台服务器组成的微型 Hadoop 集群,并且用 Python 实现了 Parallel FP-Growth 算法中的三个 MapReduce 过程。 一、Demo 1.1 快速开始 请确保 Python 以及 jieba 中文分词库已安装。 若没有安装 jieba ,在命令行中: pip install jieba # for python pip3 install jieba # for python3 或者直接运行无 jieba 版本 find_pair_nojieba.py(会没有关键词近似匹配功能)。 不修改任何文件,运行 .src/demo/find_pair.py。 输入想要匹配的查询词即可。
资源推荐
资源详情
资源评论
收起资源包目录
Mining-Frequent-Pattern-from-Search-History-master.zip (22个子文件)
Mining-Frequent-Pattern-from-Search-History-master
src
preprocess
format_file.py 2KB
gb2utf8.py 1KB
__init__.py 0B
format_file_v2.py 3KB
to_db_jieba.py 2KB
utils.py 500B
to_db.py 2KB
__init__.py 0B
mapper2.py 508B
statistics.py 1KB
reducer2.py 2KB
reducer3.py 964B
reducer1.py 936B
mapper1.py 241B
mapper3.py 312B
demo
find_pair_nojieba.py 815B
find_pair.py 1KB
combine_parts.py 743B
res.txt 2.19MB
sort_kv.py 2KB
doc
搜索记录频繁模式挖掘.pdf 717KB
README.md 6KB
共 22 条
- 1
资源评论
AR新视野
- 粉丝: 25
- 资源: 4651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功