<!--=============================================================================
# FileName: README.md
# Desc:
# Author: lizherui
# Email: lzrak47m4a1@gmail.com
# HomePage: https://github.com/lizherui
# Version: 0.0.1
# LastChange: 2013-04-07 13:53:50
# History:
=============================================================================-->
weibo_python
============
###介绍
毕业设计中基于给定微博数据进行垃圾微博识别
###进度
对MICRO_BLOG.txt解析完毕
总天数:370
总微博数量:2056089
总垃圾微博数量:300555
###程序运行的方法
python main.py
###目录结构
conf: 项目配置
data: 原始数据文件,未上传到github
export: 程序输出文件
main.py: 主程序
###垃圾微博判定策略
某个用户在30秒内连续发布15条微博,则命中垃圾微博策略
命中后,垃圾行为映射表中该用户对应次数+1,垃圾微博映射表中命中的所有微博对应出现次数+1
每次命中策略结束时清空该用户对应的15条微博信息,重新记录
###输出文件的格式说明
blog_blacklist.txt:垃圾微博内容,出现总次数
blog_length:微博长度,出现总次数
blog_length_stats:微博长度均值,微博长度方差
user_blacklist.txt:用户名,用户昵称,发布垃圾微博的行为总次数
user_everyday_blogs.txt:用户名,用户昵称,每天发布的微博数量
user_everyday_blogs_stats.txt:用户名,用户昵称,基于总天数的发布微博数量的均值和方差,除去未发布任何微博的日期后得到的数量的均值和方差
user_everyday_trush_blogs.txt:用户名,用户昵称,每天发布的垃圾微博数量
user_everyday_trush_blogs_stats.txt:用户名,用户昵称,基于总天数的发布垃圾微博数量的均值和方差,除去未发布任何垃圾微博的日期后得到的均值和方差
user_total_blogs.txt:用户名,用户昵称,用户发布的微博总数量和所占比率
###微博内容分类与比例
####名人名言
实例:真正的信仰是建立在岩石上的,而其他的一切都颠簸在时间的波浪上.
总微博中所占比例:60%
垃圾微博中所占比例:75%
####节日祝福
实例:祝大家七夕节快乐
总微博中所占比例:20%
垃圾微博中所占比例:10%
####社会事件
实例:风雨同‘舟’、威武不‘曲’,中国加油!舟曲加油!
总微博中所占比例:15%
垃圾微博中所占比例:10%
####励志故事
实例:产品常不守时。这些日本公司就派人整天待在微软,督促盖茨务必准时交货。盖茨一度还很不理解。后来,盖茨认识了和他同龄的日本计算机界天才西和彦,并成为莫逆之交。微软也于1977年进军日本市场,西和彦一度当上微软的副总经理,他向盖茨讲述了很多在日本做生意的要领:(1)日本人讲究信誉;
总微博中所占比例:5%
垃圾微博中所占比例:5%
============
没有合适的资源?快使用搜索试试~ 我知道了~
毕业设计中基于给定微博数据的反作弊识别,用python开发.zip
共14个文件
txt:9个
py:3个
md:1个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 126 浏览量
2023-08-09
22:13:15
上传
评论
收藏 3.03MB ZIP 举报
温馨提示
用Java写的项目,项目真实可靠,可用作本科毕业设计,欢迎大家下载学习。用Java写的项目,项目真实可靠,可用作本科毕业设计,欢迎大家下载学习。用Java写的项目,项目真实可靠,可用作本科毕业设计,欢迎大家下载学习。用Java写的项目,项目真实可靠,可用作本科毕业设计,欢迎大家下载学习。用Java写的项目,项目真实可靠,可用作本科毕业设计,欢迎大家下载学习。
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计中基于给定微博数据的反作弊识别,用python开发.zip (14个子文件)
project_code
export
user_everyday_trash_blogs_stats.txt 12KB
user_blacklist.txt 9KB
user_everyday_blogs.txt 723KB
blog_length_stats.txt 19B
user_total_blogs.txt 78KB
blog_length.txt 2KB
blog_blacklist.txt 5.86MB
user_everyday_trash_blogs.txt 27KB
user_everyday_blogs_stats.txt 88KB
main.py 9KB
.gitignore 28B
conf
__init__.py 393B
conf.py 2KB
README.md 3KB
共 14 条
- 1
资源评论
c++服务器开发
- 粉丝: 3176
- 资源: 4461
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Java和MySQL的学生信息管理系统.zip
- (源码)基于ASP.NET Core的零售供应链管理系统.zip
- (源码)基于PythonSpleeter的戏曲音频处理系统.zip
- (源码)基于Spring Boot的监控与日志管理系统.zip
- (源码)基于C++的Unix V6++二级文件系统.zip
- (源码)基于Spring Boot和JPA的皮皮虾图片收集系统.zip
- (源码)基于Arduino和Python的实时歌曲信息液晶显示屏展示系统.zip
- (源码)基于C++和C混合模式的操作系统开发项目.zip
- (源码)基于Arduino的全球天气监控系统.zip
- OpenCVForUnity2.6.0.unitypackage
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功