weibo_python
============
###介绍
毕业设计中基于给定微博数据进行垃圾微博识别
###进度
对MICRO_BLOG.txt解析完毕
总天数:370
总微博数量:2056089
总垃圾微博数量:300555
###程序运行的方法
python main.py
###目录结构
conf: 项目配置
data: 原始数据文件,未上传到github
export: 程序输出文件
main.py: 主程序
###垃圾微博判定策略
某个用户在30秒内连续发布15条微博,则命中垃圾微博策略
命中后,垃圾行为映射表中该用户对应次数+1,垃圾微博映射表中命中的所有微博对应出现次数+1
每次命中策略结束时清空该用户对应的15条微博信息,重新记录
###输出文件的格式说明
blog_blacklist.txt:垃圾微博内容,出现总次数
blog_length:微博长度,出现总次数
blog_length_stats:微博长度均值,微博长度方差
user_blacklist.txt:用户名,用户昵称,发布垃圾微博的行为总次数
user_everyday_blogs.txt:用户名,用户昵称,每天发布的微博数量
user_everyday_blogs_stats.txt:用户名,用户昵称,基于总天数的发布微博数量的均值和方差,除去未发布任何微博的日期后得到的数量的均值和方差
user_everyday_trush_blogs.txt:用户名,用户昵称,每天发布的垃圾微博数量
user_everyday_trush_blogs_stats.txt:用户名,用户昵称,基于总天数的发布垃圾微博数量的均值和方差,除去未发布任何垃圾微博的日期后得到的均值和方差
user_total_blogs.txt:用户名,用户昵称,用户发布的微博总数量和所占比率
###微博内容分类与比例
####名人名言
实例:真正的信仰是建立在岩石上的,而其他的一切都颠簸在时间的波浪上.
总微博中所占比例:60%
垃圾微博中所占比例:75%
####节日祝福
实例:祝大家七夕节快乐
总微博中所占比例:20%
垃圾微博中所占比例:10%
####社会事件
实例:风雨同‘舟’、威武不‘曲’,中国加油!舟曲加油!
总微博中所占比例:15%
垃圾微博中所占比例:10%
####励志故事
实例:产品常不守时。这些日本公司就派人整天待在微软,督促盖茨务必准时交货。盖茨一度还很不理解。后来,盖茨认识了和他同龄的日本计算机界天才西和彦,并成为莫逆之交。微软也于1977年进军日本市场,西和彦一度当上微软的副总经理,他向盖茨讲述了很多在日本做生意的要领:(1)日本人讲究信誉;
总微博中所占比例:5%
垃圾微博中所占比例:5%
============
没有合适的资源?快使用搜索试试~ 我知道了~
基于python实现的给定微博数据的反作弊识别
共14个文件
txt:9个
py:3个
md:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 37 浏览量
2024-09-16
18:05:27
上传
评论
收藏 3.03MB ZIP 举报
温馨提示
【作品名称】:基于python实现的给定微博数据的反作弊识别 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 基于给定微博数据进行垃圾微博识别 ###进度 对MICRO_BLOG.txt解析完毕 总天数:370 总微博数量:2056089 总垃圾微博数量:300555 ###程序运行的方法 python main.py ###目录结构 conf: 项目配置 data: 原始数据文件,未上传到github export: 程序输出文件 main.py: 主程序 垃圾微博判定策略 某个用户在30秒内连续发布15条微博,则命中垃圾微博策略 命中后,垃圾行为映射表中该用户对应次数+1,垃圾微博映射表中命中的所有微博对应出现次数+1 每次命中策略结束时清空该用户对应的15条微博信息 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。不一定能够满足所有人的需求,需要有一定的基础能够看懂代码,能够自行调试代码并解决报错,能够自行添加功能修改代码。
资源推荐
资源详情
资源评论
收起资源包目录
weibo_python-master.zip (14个子文件)
weibo_python-master
export
user_everyday_trash_blogs_stats.txt 12KB
user_blacklist.txt 9KB
user_everyday_blogs.txt 723KB
blog_length_stats.txt 19B
user_total_blogs.txt 78KB
blog_length.txt 2KB
blog_blacklist.txt 5.86MB
user_everyday_trash_blogs.txt 27KB
user_everyday_blogs_stats.txt 88KB
main.py 9KB
.gitignore 28B
conf
__init__.py 393B
conf.py 2KB
README.md 3KB
共 14 条
- 1
资源评论
小英子架构
- 粉丝: 950
- 资源: 3271
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功