没有合适的资源?快使用搜索试试~ 我知道了~
reddit-wordcount:处理reddit公共帖子转储并生成单词频率表
需积分: 9 0 下载量 127 浏览量
2021-05-19
12:32:24
上传
评论
收藏 4KB ZIP 举报
温馨提示
这组小型脚本从标准输入中读取一组JSON格式的reddit帖子,并执行一些简单的任务: 提取100000个最常用单词的计数 提取400000个最常见的单词共现(忽略停用词)及其计数 单词定义为由其他字符或字符串的结尾/开头包围的连续latin1字母的序列。 使用系统区域设置将文本小写。 脚本的使用非常简单,在运行npm install之后, npm install使用以下命令: bunzip2 -kc /data/RC_2015-05.bz2 |node index.js 它将在当前目录中生成count.txt文件,并在计数器更新时定期对其进行更新。 在没有SSD驱动器的情况下,我的计算机上大约需要2个小时才能处理一个月的帖子(2015-05),“情侣”一词则要花费几个小时。 全部在内存中完成。 对于新婚夫妇,只需更改JS文件名即可。 有关reddit公共帖子转储的更多信息,请
资源推荐
资源评论
资源评论
A玩具爆款孙大帅
- 粉丝: 18
- 资源: 4712
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功