重水机器学习问题
问题陈述
通常,此问题的目标是建立基于机器学习的文本分类模型。 输入以csv文件形式给出,其中包含所有文档,这些文档充当我们的数据集以训练和测试我们的模型。 文档输入格式如下:
CANCELLATION NOTICE,641356219cbc f95d0bea231b ... [lots more words] ... 52102c70348d b32153b8b30c
因此,每个文档都由一个在其开始时指示文档类型的标签以及一系列用空格分隔的模糊OCR(光学字符识别)数据组成,每个数据都映射到原始文档中的唯一单词。
一般步骤
在给定的数据集中,因为已经提供了标签,所以我们将集中于监督学习。
数据集预处理-加载我们的数据集并执行基本的预处理。 例如,计算我们数据集的组成并将数据集分为训练集和测试集。
特征选择-将原始数据集转换为可以在我们的机器学习模型中使用的平面特征