NBA-TALL项目
背景
因为我们处在信息时代,所以各种新闻门户网站都有自己的新闻分类平台。 但是人们的精力和时间总是有限的。 新闻和信息的复杂性极大地影响了人们的阅读体验。 如何整合各种新闻网站的分类新闻内容已成为亟待解决的问题。 由于项目的发起人倾向于关注NBA新闻,因此我们在大型门户平台的体育新闻中选择NBA新闻作为集成目标,并将其命名为nba-tall。
介绍
nba-tall项目使用scrapy爬虫框架动态地爬取各种新闻门户网站的NBA分类新闻,然后使用百度AI开放平台提供的“短文本相似性”界面来计算两个新闻标题的相似性并进行分类他们根据阈值。 最后,将分类后的新闻内容提取出来,并将分类后的内容的URL链接附加到用户的统一性上。
结构
项目结构如下:
子系统的详细介绍
(1)蜘蛛系统SS:
Spider系统是该项目的最基本部分。 我们定期从给定来源获取数据,获取新新闻并将其传
评论0
最新资源