文本预处理和特征生成
将数据提取为适合下游建模任务的适当格式。 使用的技术:- 使用的 Python 包:- re、nltk、requests、RegexpTokenizer、MWETokenizer、PorterStemmer、itertools、multiprocessing、pandas
该项目包括分析文本数据,即从非结构化格式中提取数据并将提取的数据转换为适合下游建模任务的适当格式。 在一个流行的AI会议文件Group007.pdf中发布的论文共有200个URL。 主要任务是提取给定数据并生成纸体的稀疏表示,它由两个 [.txt] 文件 __Vocabulary 索引文件和稀疏计数向量文件组成。 然后为标题、作者和摘要生成 [.csv](逗号分隔值)文件格式。
为没有标题、作者、摘要和参考文献的纸体生成稀疏表示。 生成包含三列的 CSV 文件:
一种。 出现在所有标题中的前