LSTM 自动写诗
1 概述:
任务:使用 LSTM 完成自动写诗任务
数据集:chinese-poetry 数据集(https://github.com/chinese-poetry/chinese-poetry)
数据集介绍:chinese-poetry 是一个中华古诗词数据库,其中收集了唐诗、宋词等几十万首。
解决方案:将 chinese-poetry 中的唐诗部分提取出来,筛选出其中的五言诗与 7 言诗。以 7 言诗为例,使用 Word2Vec
对 7 言诗训练词向量。取得相应的词表并将词向量放入 LSTM 模型进行训练。
2 解决方案
2.1 训练相关库
pytorch, numpy, json, gensim
2.2 数据集提取
数据集的文件是 json 格式,这里要将所有古诗提取出并判断其是否为 5 言古诗或 7 言古诗,将不符合的古诗去除。