# baike_triples
爬取百度百科词条,抽取三元组,构建知识图谱
1.首先运行spider/spider_main迭代地抓取原始词条的网页,爬取的html文件放到spider/webpages文件夹里面
2.运行ie/extract-table.py进行网页的解析,并将每个词条的信息存入txt文件,放到info-table文件夹里面
3.运行kg/build-triple-from-table.py生成三元组文件triples.txt,放到kg/triple.txt里面
4.运行insert_to_neo4j.py将三元组存入neo4j数据库(注意这一步之前要现在本地主机打开neo4j数据库,否则会提示连接不上的错误)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
知识图谱是一种结构化的知识表达形式,它以图形的方式组织和存储了大量实体(如人、地点、事件等)及其相互关系。在知识图谱中,实体作为节点,实体之间的各种语义关联则通过边进行连接,形成了一个庞大的数据网络。 知识图谱的核心价值在于其能够精确、直观地表示复杂世界中的知识,并支持高效的知识查询与推理。例如,在搜索引擎中,知识图谱可以提升搜索结果的相关性和准确性,为用户提供直接的答案而非仅仅是网页链接。同时,知识图谱还能支撑高级的人工智能应用,比如问答系统、推荐系统、决策支持等领域。 构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,从而推动人工智能向着更加理解人类世界的智慧方向发展。 总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
资源推荐
资源详情
资源评论
收起资源包目录
爬取百度百科词条,抽取三元组,构建知识图谱.zip (93个子文件)
SJT-code
spider
._html_parser.py 4KB
.DS_Store 6KB
url_manager.py 648B
webpages
田壮壮_百度百科.html 221KB
漳绣_百度百科.html 113KB
中国民俗文化村_百度百科.html 138KB
韩晶(中国大陆流行女歌手)_百度百科.html 138KB
最初的梦想(范玮琪演唱歌曲)_百度百科.html 98KB
广州(广东省省会、副省级市)_百度百科.html 682KB
不能承受的生命之轻_百度百科.html 116KB
副省级市_百度百科.html 109KB
男人婆(汉语词汇)_百度百科.html 79KB
明天过后(张杰专辑)_百度百科.html 105KB
侦探社_百度百科.html 91KB
井柏然(中国内地男演员、歌手)_百度百科.html 424KB
斯泰尔斯庄园奇案(英国1990年Ross Devenish导演电视剧)_百度百科.html 76KB
杜海涛(湖南卫视主持人)_百度百科.html 234KB
家有外星人(家庭喜剧)_百度百科.html 261KB
捧哏_百度百科.html 110KB
美女不坏_百度百科.html 146KB
BOBO·双城记忆_百度百科.html 79KB
孙兴(中国香港男演员)_百度百科.html 259KB
百度百科_全球最大中文百科全书.html 84KB
尤瑟夫‧卡玛_百度百科.html 90KB
存储介质_百度百科.html 112KB
秒懂星课堂_百度百科.html 347KB
花式九球_百度百科.html 129KB
吴昕(中国电视节目主持人、演员)_百度百科.html 219KB
省辖市_百度百科.html 86KB
盗马贼_百度百科.html 122KB
摄影(专业术语)_百度百科.html 244KB
孙兴(都江堰市上善社会工作服务中心主任)_百度百科.html 68KB
西安(陕西省省会、副省级市)_百度百科.html 589KB
深圳_百度百科.html 536KB
印度尼西亚_百度百科.html 284KB
市桥水色_百度百科.html 68KB
侦探(汉语词汇)_百度百科.html 280KB
正版男友_百度百科.html 89KB
崇基学院_百度百科.html 148KB
html_parser.py 2KB
html_downloader.py 1KB
._.DS_Store 4KB
urls.pkl 244KB
spider_main.py 2KB
._url_manager.py 4KB
kg
insert_to_neo4j.py 883B
entities.bin 19KB
attrs.bin 6KB
adcr.py 3KB
build-triple-from-table.py 1KB
triples.txt 17KB
._build-triple-from-table.py 4KB
.gitattributes 93B
LICENSE 11KB
ie
extract-table.py 2KB
info-table
田壮壮.txt 1KB
最初的梦想.txt 351B
孙兴.txt 0B
西安.txt 988B
斯泰尔斯庄园奇案.txt 341B
BOBO·双城记忆.txt 201B
侦探社.txt 266B
美女不坏.txt 596B
市桥水色.txt 130B
男人婆.txt 116B
广州.txt 977B
深圳.txt 728B
盗马贼.txt 501B
省辖市.txt 76B
韩晶.txt 474B
正版男友.txt 97B
花式九球.txt 136B
副省级市.txt 163B
秒懂星课堂.txt 269B
摄影.txt 98B
侦探.txt 145B
吴昕.txt 631B
不能承受的生命之轻.txt 290B
存储介质.txt 128B
家有外星人.txt 532B
中国民俗文化村.txt 250B
尤瑟夫‧卡玛.txt 163B
.txt 0B
明天过后.txt 312B
捧哏.txt 154B
漳绣.txt 189B
崇基学院.txt 337B
杜海涛.txt 475B
印度尼西亚.txt 1KB
井柏然.txt 843B
paged-table.bin 2KB
.gitignore 1KB
README.md 599B
共 93 条
- 1
资源评论
- 星空941012024-04-10非常有用的资源,有一定的参考价值,受益匪浅,值得下载。
- 2301_816672012024-05-01资源内容详尽,对我有使用价值,谢谢资源主的分享。
JJJ69
- 粉丝: 6364
- 资源: 5917
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功