没有合适的资源?快使用搜索试试~ 我知道了~
matlab最简单的代码-text_extraction:纯文本爬虫及文本规则提取
共15个文件
txt:9个
py:4个
md:1个
需积分: 11 2 下载量 122 浏览量
2021-05-22
11:17:32
上传
评论
收藏 633KB ZIP 举报
温馨提示
matlab最简单的代码 text_extraction 纯文本爬虫及文本规则提取 需求 爬去某个外文网站的某些文本文档,网站前缀为 获得文本会把文本储存在本地文件夹source中,文件命名方式为文档middle_sample.csv中前六列的字符串用任意复合连接起来,在这里为用了符合“-”。 对于每个爬下来的文档,按特定规则把文本中的部分字符串提取出来,并保存到本地文件夹result中,文档命名同上。 提取规则为在原文本中最后一次出现特定关键句keyword之前的字符串中再找出第一次出现另一个关键句another keyword后面的所有字符串提取出来。假设在小写文本中第一次出现table的索引位置为 1000,那么在原文本中前 1000个字符里最后一次出现keyword的索引位置为800则把原文本索引为800之后的所有字符抽取出来,记为text2若所有table在小写文档中出现的索引都小于keyword在原文档第一次出现的索引则直接把原文档另存为为新文档。 文档说明 /source/ 用于存放原始爬取下来的原始文本。由于前部分没有一个文本符合后面的文本提取规则,因此额外添加一个符合
资源推荐
资源详情
资源评论
收起资源包目录
text_extraction-master.zip (15个子文件)
text_extraction-master
summary.py 6KB
README.md 2KB
result
test.txt 339KB
get_text.py 582B
find_tool.py 3KB
source
20-K TRON INTERNATIONAL INC-10-K-1996年3月28日-1995年12月31日-1.txt 372KB
20-K TRON INTERNATIONAL INC-8-K-2006年10月5日-2006年9月29日-29.txt 236KB
test.txt 684KB
20-K TRON INTERNATIONAL INC-8-K-1995年7月10日-1995年6月23日-23.txt 133KB
20-K TRON INTERNATIONAL INC-10-Q-1995年5月16日-1995年4月1日-11.txt 121KB
20-K TRON INTERNATIONAL INC-10-K-1997年3月19日-1996年12月28日-2.txt 182KB
20-K TRON INTERNATIONAL INC-8-K-2003年1月15日-2003年1月2日-24.txt 301KB
20-K TRON INTERNATIONAL INC-10-Q-1996年10月30日-1996年9月28日-12.txt 120KB
main.py 2KB
M_main.m 789B
共 15 条
- 1
资源评论
weixin_38701683
- 粉丝: 4
- 资源: 927
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功