没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘项目
共14个文件
csv:8个
jpg:2个
txt:1个
需积分: 43 3 下载量 36 浏览量
2021-02-16
03:46:55
上传
评论 1
收藏 1.86MB ZIP 举报
温馨提示
数据挖掘项目 推文聚类 目标: 主Twitter API用于提取推文 掌握自然语言处理 数据清理 推文分类 要求: Twitter开发人员帐户 Twitter API 1-数据提取: 导入库(tweepy +熊猫+ numpy) 连接到Twitter API 将推文提取到多个csv文件中,然后将它们组合到一个csv文件中 2-处理前的推文: 使用re库搜索不必要的信息。 删除标点符号,主题标签,个人资料名称,URL和表情符号。 创建一个新的干净的CSV文件 3-处理推文:自然语言处理 导入nltk(自然语言工具包),它由最常用的算法组成,例如标记化,词性标记,词干,情感分析,主题细分和命名实体识别。 NLTK帮助计算机分析,预处理和理解书面文本。 使用“停用词”摆脱英语单词,这些单词不会给句子增加太多含义。 在不牺牲含义的前提下,可以安全地忽略它们。 使用“ Porte
资源推荐
资源详情
资源评论
收起资源包目录
Data-Mining-Project-main.zip (14个子文件)
Data-Mining-Project-main
TwitterClustering.ipynb 197KB
twitter_p2.csv 297KB
requirements.txt 108B
clean_combined_csv.csv 1.34MB
elbow.JPG 19KB
twitter_p0.csv 373KB
combined_csv.csv 1.68MB
README.md 2KB
twitter_p3.csv 333KB
twitter_clusters.csv 3KB
credentials.py 277B
twitter_p4.csv 314KB
twitter_p1.csv 391KB
result.JPG 106KB
共 14 条
- 1
资源评论
莊謙
- 粉丝: 22
- 资源: 4629
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功