# 输入输出及操作相关说明
更多信息详见实验报告。
## 配置方式
在可执行文件同名文件夹下应有 `FilmContentSystem.config` 文件,程序将从中读取相应配置信息,否则若不存在配置文件,将采用默认配置。
配置文件(对应默认配置)示例如下:
```
DICT_PATH = "dict/dict.txt"
HMM_PATH = "dict/HMM.txt"
STOP_PATH = "dict/stopwords.txt"
USE_HMM = true
USE_STOP = true
INPUT_DIR = "input"
OUTPUT_DIR = "output"
```
只有配置以上7个键值是有效的。其中路径请用 `""` 包围,bool类型的值请配置 `true` 或 `false`。请不要输入多余字符。
`USE_HMM` 和 `USE_STOP` 分别表示分词时是否使用HMM和停用词表。
请保证config文件的正确性,并**存储为 UTF-8 编码**,否则将不保证程序能正确运行。
## 输入方式
在 `INPUT_DIR` 下放置输入的 html 文件,**请保证它们以 UTF-8 存储**。
词典、HMM参数、停用词典可参考已有格式进行修改,但是**请保证以 UTF-8 存储**。
## 运行方式
在以上都确保无误的情况下,点击可执行文件运行即可。在屏幕上可能会打印一些日志信息,如读取、解析、分词等的运行时间,这是正常的。
## 输出方式
在 `OUTPUT_DIR` 下将输出每个 html 文件同名的 info 和 txt 文件,分别存储电影信息和分词结果,编码也为 UTF-8 。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
最终目标是实现一个基于文本内容的电影检索与推荐系统,可以对电影网页进行信息提取和分词,并以此为基础建立倒排文档,实现电影查询及简单的推荐功能。 第一部分解析豆瓣 html 文件,完成电影信息提取和中文分词; 第二部分建立倒排文档,完成检索和推荐功能,并用 qt 构建用户图形界面。
资源推荐
资源详情
资源评论
收起资源包目录
FilmContentSystem-master.zip (63个子文件)
FilmContentSystem-master
Part1
doc
实验报告.pdf 1019KB
utils
movie-scraper
douban_movie_scraper.py 1KB
exe
FilmContentSystem.exe 442KB
FilmContentSystem.config 162B
README.md 1KB
dict
dict.txt 4.84MB
HMM.txt 809KB
README.md 252B
stopwords.txt 11KB
FilmContentSystem.sln 1KB
FilmContentSystem
CharString.cpp 5KB
CharStringLink.cpp 3KB
common.cpp 886B
InvertedIndex.hpp 2KB
FilmInfo.cpp 1KB
HtmlTag.cpp 1018B
FilmContentSystem.vcxproj.filters 4KB
Stack.hpp 2KB
Vector.hpp 3KB
WordSegmentor.h 3KB
FileReader.h 1KB
BalancedBST.hpp 4KB
CharStringLink.h 2KB
common.h 837B
FilmContentSystemApplication.cpp 14KB
HtmlParser.cpp 7KB
FilmInfo.h 2KB
DocumentList.cpp 2KB
WordSegmentor.cpp 8KB
FilmContentSystemApplication.h 4KB
CharString.h 2KB
FilmContentSystem.vcxproj 7KB
FileReader.cpp 3KB
HtmlParser.h 3KB
FilmContentSystemMain.cpp 2KB
DocumentList.h 2KB
HashMap.hpp 4KB
HtmlTag.h 2KB
Part2
doc
实验报告.pdf 796KB
utils
poster-srapper
movie_poster_scrapper.py 803B
query-maker
query-maker.cpp 1KB
README.md 122B
FilmContentSystem_GUI
common_gui.cpp 136B
resource.qrc 139B
filmpage.cpp 5KB
retrievepage.ui 2KB
homepage.ui 4KB
homepage.cpp 558B
mainwindow.h 1KB
mainwindow.cpp 3KB
resource
icon.ico 17KB
icon.png 33KB
retrievepage.h 2KB
homepage.h 596B
main.cpp 326B
filmpage.ui 4KB
clickablelabel.h 481B
mainwindow.ui 1KB
retrievepage.cpp 6KB
common_gui.h 217B
FilmContentSystem_GUI.pro 2KB
filmpage.h 1KB
clickablelabel.cpp 222B
共 63 条
- 1
资源评论
博士僧小星
- 粉丝: 1894
- 资源: 5877
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功