#README 这被指定为 UCI 的 CS 121:信息检索项目
作业的目的是展示我们对词频逆文档频率 (TF-IDF) 评分的理解。
我们得到的指导很少,并且在如何实施我们的 TF-IDF 方面获得了自由。 我决定使用改编自的实现,因为它看起来简单且接近(如果不完全相同)我们在讲座中讨论的内容。
注意:目的是要查看而不是开发。 我提供了所有必要的文件,其中包含 1001 个文本文件,这些文件用作我们的语料库(尽管原始文件有大约 50,000 个)。 因此,关于如何使代码工作的说明很少。
我已经为项目的这一部分自己编写和设计了所有内容。 这是第 1 阶段,但我的团队目前处于第 2 阶段,尽管我自己的大部分工作现已完成。 我们被特别要求不要使用为我们完成大部分工作的库,例如 lucene。