第三周大作业
大作业三 影视爬虫与检索系统
实验目的
掌握
Python
的简单爬虫功能
掌握用正则表达式提取关键信息
掌握
Django
的
MVC
框架思想
编写一个信息整合与检索系统
实验内容及要求
相关事项
可选取
[
电影
/
电视剧
/
电视节目
/……]
中的某一类进行爬取。
爬取影视时只爬取演员信息即可,导演、编剧等其他人员信息不做要求。
如果其中演员数量太多,爬取前
10
个即可。
影评爬取长评或者短评均可,其中的图片等媒体数据不作要求。
爬取后的数据要使用某种规范格式组织存储(例如:数据库、文件系统、
json
文件、
XML
文件等)。
根节点:影视列表