没有合适的资源?快使用搜索试试~ 我知道了~
OffTopic-Detection:该存储库包含工具和集合数据集,用于从Web归档集合中检测出离题页面
共33个文件
py:12个
txt:6个
jar:5个
需积分: 0 0 下载量 82 浏览量
2021-05-15
04:52:39
上传
评论
收藏 1.74MB ZIP 举报
温馨提示
先决条件 Python 2.7以上版本 安装NLTK 安装scikit-learn Java 1.7以上 对于Mac OS / UNIX OS 设置环境 git clone https://github.com/yasmina85/OffTopic-Detection.git cd OffTopic-Detection sudo pip install -r requirements.txt python setup.py ##检测集合的题外话 使用Archive-It中的收藏集ID python detect_off_topic.py -i [collection_id] 例如: python detect_off_topic.py -i 1860 使用Archive-It中的uri python detect_off_topic.py -r [collection_
资源推荐
资源详情
资源评论
收起资源包目录
OffTopic-Detection-master.zip (33个子文件)
OffTopic-Detection-master
collections_dataset
2950_label_gold.txt 667KB
1068_label_gold.txt 218KB
2358_label_gold.txt 713KB
stopwords.txt 28KB
download_timemap_wayback 41B
detect_off_topic 237B
extract_seed_uris 42B
requirements.txt 46B
setup.py 27B
source_code
ExtractTextFromHTMLFromSeedList.class 4KB
download_html_wayback.py 2KB
ExtractTextFromHTMLFromSeedList.java 3KB
timemap_downloader.py 2KB
data
seed_list.txt 0B
html_wayback_downloader.py 2KB
count_number_of_words.py 6KB
download_timemap.py 2KB
seed_extractor.py 2KB
get_off_topic_using_cosine_similarity.py 4KB
off_topic_detector_cos_sim.py 4KB
extract_seed_uris.py 2KB
off_topic_detector_count_words.py 3KB
lib
xerces-2.9.1.jar 1.17MB
RTED_v1.1.jar 186KB
boilerpipe-1.2.0.jar 105KB
.DS_Store 6KB
nekohtml-1.9.13.jar 119KB
jsoup-1.8.1.jar 294KB
get_off_topic_using_cosine_similarity 66B
README.md 2KB
detect_off_topic.py 4KB
download_html_wayback 46B
extract_text_from_html 149B
共 33 条
- 1
资源评论
歪头羊
- 粉丝: 36
- 资源: 4651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功