通过CSDN爬虫爬取博客，利用Whoosh实现倒排索引与排序，django作为后端实现小型CSDN搜索引擎资源-CSDN文库

共80个文件

pyc：31个

py：21个

png：13个

版权申诉

爬虫

django

搜索引擎

人工智能

python

171 浏览量 2024-02-22 16:16:37 上传评论收藏 1.43MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

CSDN_SearchEngine-master.zip （80个子文件）

CSDN_SearchEngine-master

展示.pdf 918KB

search_engine

__init__.py 1B

tests.py 83B

admin.py 63B

word2vec.py 2KB

DBsettings.py 90B

migrations

0001_initial.py 771B

0005_query.py 619B

0002_csdnblog_writer_id.py 431B

0003_auto_20181013_1637.py 392B

__pycache__

0003_auto_20181013_1637.cpython-36.pyc 592B

0004_auto_20181013_2020.cpython-36.pyc 592B

0005_query.cpython-36.pyc 726B

0002_csdnblog_writer_id.cpython-35.pyc 691B

0001_initial.cpython-36.pyc 803B

0004_auto_20181013_2020.cpython-35.pyc 642B

__init__.cpython-35.pyc 165B

0003_auto_20181013_1637.cpython-35.pyc 642B

0002_csdnblog_writer_id.cpython-36.pyc 624B

__init__.cpython-36.pyc 148B

0001_initial.cpython-35.pyc 901B

0004_auto_20181013_2020.py 392B

searcher.py 4KB

apps.py 95B

models.py 551B

csdn_crawler.py 7KB

urls.py 225B

__pycache__

searcher.cpython-36.pyc 3KB

urls.cpython-36.pyc 343B

apps.cpython-36.pyc 361B

admin.cpython-36.pyc 178B

views.cpython-36.pyc 5KB

admin.cpython-35.pyc 199B

__init__.cpython-35.pyc 160B

apps.cpython-35.pyc 400B

__init__.cpython-36.pyc 137B

models.cpython-36.pyc 847B

models.cpython-35.pyc 698B

views.py 7KB

data

word2Vec

model保存.txt 46B

img

results.png 310KB

index.png 53KB

CSDN_SearchEngine

__init__.py 44B

wsgi.py 411B

__init__.pyc 229B

urls.py 887B

settings.py 4KB

__pycache__

urls.cpython-36.pyc 1015B

settings.cpython-35.pyc 2KB

settings.cpython-36.pyc 2KB

__init__.cpython-35.pyc 219B

urls.cpython-35.pyc 1001B

__init__.cpython-36.pyc 190B

wsgi.cpython-35.pyc 605B

wsgi.cpython-36.pyc 564B

templates

result.html 11KB

index.html 2KB

manage.py 550B

static

pagination.js 6KB

textSearch.js 3KB

jquery.js 247KB

global.js 750B

jquery-1.10.2.min.js 91KB

img

more.png 3KB

logo1.png 6KB

down.png 3KB

logo.png 11KB

ll.png 3KB

line.png 3KB

btn_min.png 5KB

lr.png 3KB

btnbg.png 3KB

seachbtn.png 5KB

inputbg.png 3KB

css

style.css 5KB

result.css 6KB

bootstrap.min.css 100KB

advanced.css 3KB

bootstrap.css 124KB

index.css 2KB

CSDN Search Engine

ontents

爬虫

搜索算法

演示

前端 & 后端

爬虫

Requests + BeautifulSoup

url： https://blog.csdn.net/diandianxiyu_geek/article/details/83657231

正则表达式匹配url

存储到mysql数据库

模拟登陆

Selenium 模拟点击 + send_keys

Cookies格式转换 + session登陆

20w+数据

常见开源全文搜索引擎

Lucene（pyLucene）

Elasticsearch

Whoosh

Sphinx

Nutch

Solr

搜索算法： whoosh

Jieba 中文分词解析器

from jieba.analyse.analyzer import ChineseAnalyzer

多字段索引模式 schema

schema = Schema(url=ID(stored=True), title=TEXT(stored=True),

nickname=TEXT(stored=True), readcount=TEXT(stored=True)

, text=TEXT(stored=True, analyzer=analyzer), time=DATETIME(stored=True))

多字段查询词解析器 MultifieldParser 可同时匹配标题、文章内容

parser = MultifieldParser(['title', 'text'], schema=ix.schema)

with ix.searcher(weighting=scoring.BM25F()) as searcher:

query = parser.parse(q)

results = searcher.search(query, limit=100)

搜索器（searcher）采用BM25F得分策略

评论收藏

内容反馈

版权申诉

博士僧小星

粉丝: 2050
资源: 5919

通过CSDN爬虫爬取博客，利用Whoosh实现倒排索引与排序，django作为后端实现小型CSDN搜索引擎

Django中使用haystack+whoosh实现搜索功能

Django实现whoosh搜索引擎使用jieba分词

washer一个基于whoosh的文件CLI索引器和搜索工具

Django之使用haystack+whoosh实现搜索功能

对一个汽车评论的数据集利用深度学习的卷积神经网络进行情感分析 利用Python的Django框架将其包装成一个搜索引擎

hitsz_news_serach.zip

Django中使用Whoosh进行全文检索的方法

Python中使用haystack实现django全文检索搜索引擎功能

wagtail-whoosh：使用Whoosh引擎在Wagtail CMS的后端搜索

flask_whoosh:一个简单的 python Flask 应用程序，它运行一个数据抓取器和一个 Whoosh 搜索引擎实现

基于Whoosh和BM25算法实现的问答系统.zip

基于Python Whoosh和BM25算法实现的问答系统【100013280】

使用python+whoosh实现全文检索

BlogBackendProject：我的博客的后端代码，使用Django Rest框架进行开发

django 使用全局搜索功能的实例详解

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

PySimpleGUI4.60.5

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

Python学习笔记(干货) 中文PDF完整版.pdf

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

人体姿态检测

抢购haiwei.rar

最新资源

对一个汽车评论的数据集利用深度学习的卷积神经网络进行情感分析利用Python的Django框架将其包装成一个搜索引擎

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料