视频“文本数据分析工作流及其应用”介绍了两个文本分析示例。 1.汽车故障原因提取(1_VehicleRepairAnalysis)目标数据:英文文本为了从汽车维修日志分析为什么要进行维修,我们将文本数据数字化,预处理去除不必要的字符,并使用潜在狄利克雷分配(LDA)修复日志,这是主题建模的一个例子。 vehicleRepairAnalysis_jp.mlx是主文件。
2. 旅游景点相似度判断(2_SightSimilarity)目标数据:日语文本
从旅游目的地描述文档中,计算出每个旅游目的地的相似度并使用潜在语义分析(LSA)寻找与某个旅游目的地相似的旅游目的地,或者使用词的分布式表达(word2vec)来寻找与特定情况相关的词。 sight_analysis_live.mlx 是主文件。 对于 MeCab 设置,请遵循 ref 文件夹中的 mecab_x64_build_proced