1 / 27
《程序设计基础》
AI 诗人实验报告
2 / 27
目录
北京邮电大学数字媒体与设计艺术学院 ...........................................................
2019 年 1 月 1 日 .............................................................................................
一、 作业概述 ................................................................................................ 3
<1>项目目的 ................................................................................................ 3
<2>项目内容 ................................................................................................ 3
1.基于词频分析 ..................................................................................... 3
2. 基于 tensorflow 的机器学习 ............................................................ 8
3.(参考)诗词爬取和歌词爬取 ........................................................ 10
4.另一个机器学习的模型 ................................................................... 10
5.百度情感识别系统/百度 DNN 语言模型 ......................................... 14
<3>项目意义 .............................................................................................. 14
二、 数据分析 .............................................................................................. 15
<1>基于词频 .............................................................................................. 15
<2>基于 tensorflow ................................................................................... 15
<3>总结 ..................................................................................................... 18
三、 诗词生成程序的算法比较 .................................................................. 18
<1>基于词频 .............................................................................................. 18
<2>基于 tensorflow ................................................................................... 22
四、 实验结果分析 ...................................................................................... 26
4 / 27
与老师所给代码不同的是,此处我使用了
urllib3
库而不是
requests
库
(2)高频词统计
主要文件:dataHandler.py
使用 jieba 库,统计形容词,副词,名称以及动词并且提取其高频词
(3)数据处理
主要文件:zzcf.py mlzzcf.py
Zzcf.py 使用正则表达式,在爬取的数据中仅提取诗句与标点,处理后格式如下:
Mlzzcf.py(原创)则是将数据处理为适用于基于 tensorflow 的作诗代码,可以添加进其源数据之
中,处理后格式如下:
5 / 27
(4)生成五言律诗(主要调研对象)
主要文件:TangshiGene.py
代码如下:
(5)生成藏头诗
主要文件:TangshiGene2.py
此处仅需要输入藏头诗的第一个字组成的词语便可以生成
代码如下: