名称分类
该存储库包含对多类分类问题的探索,该问题包括在python3中将名称分类为14个类别。 所有笔记本均包含我执行的所有任务的逐步说明。 从1.Dataset Exploration.ipynb开始,然后从2.Classifier.ipynb开始,最后看一下ClassifyWithEmbeddings_Test.ipynb 。 文件2.Classifier.ipynb使您可以使用最终模型,该模型当前在K折交叉验证器的5折中的平均f1_score为0.72X。
在探索数据集并创建分类器时,我试图尽可能地说明问题。 但是由于时间不足,我不得不决定探索哪种方法,而无法探索其他较新的方法,例如我想要比较f1分数的“变形金刚”。
档案文件
该存储库包含以下文件:
数据/:
包含原始文件的文件夹新数据/: 在预处理和平衡+嵌入测试后创建的中间数据集文件1.Dataset Explorati