没有合适的资源?快使用搜索试试~ 我知道了~
HN-Scraper:在 Elixir 中抓取 HackerNews 的热门帖子
共8个文件
exs:4个
lock:1个
ex:1个
需积分: 9 0 下载量 151 浏览量
2021-07-18
14:30:56
上传
评论
收藏 5KB ZIP 举报
温馨提示
HNScraper 这个 Elixir 模块每小时抓取 HackerNews 的前 500 个帖子,然后: 删除除撇号和下划线之外的所有标点符号 使所有字母小写 删除单字母单词 从每个帖子的标题,然后将这些词与帖子 ID 和 URL 一起放入数据库(Postgres)中。 根据 ID 抓取前 500 个帖子,并过滤掉数据库中已存在的任何帖子 ID。 然后,检索帖子的实际详细信息。 如果帖子不是故事(即民意调查、工作或询问),则将其过滤掉。 如果帖子的 URL 已经在数据库中,那么它会被过滤掉。 然后,将帖子标题的单词连同帖子 ID 和关联的 URL 放入数据库中。 表 Postgres 表描述如下。 如果我的模式很糟糕,我很抱歉,我对 SQL 的经验并不丰富。 Words 柱子 类型 修饰符 ID 整数 非空默认 nextval('words_id_seq'::regclass)
资源推荐
资源详情
资源评论
收起资源包目录
HN-Scraper-master.zip (8个子文件)
HN-Scraper-master
mix.exs 568B
lib
hnscraper.ex 5KB
config
config.exs 155B
test
hnscraper_test.exs 100B
test_helper.exs 15B
README.md 2KB
mix.lock 538B
.gitignore 34B
共 8 条
- 1
资源评论
想知道不知道但想知道
- 粉丝: 43
- 资源: 4729
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功