用python计算lda语言模型的困惑度并作图_lda困惑度python资源-CSDN文库

需积分: 48 76 浏览量 2022-04-19 19:59:04 上传评论 5 收藏 128KB PDF 举报

资源详情

资源评论

资源推荐

⽤python计算lda语⾔模型的困惑度并作图

困惑度⼀般在⾃然语⾔处理中⽤来衡量训练出的语⾔模型的好坏。在⽤LDA做主题和词聚类时，原作者D.Blei就是采⽤了困惑度来确定主题

数量。⽂章中的公式为：

perplexity=exp^{ - (∑log(p(w))) / (N) }

其中，P(W)是指的测试集中出现的每⼀个词的概率，具体到LDA的模型中就是P(w)=∑z p(z|d)*p(w|z)【z,d分别指训练过的主题和测试集

的各篇⽂档】。分母的N是测试集中出现的所有词，或者说是测试集的总长度，不排重。

因⽽python程序代码块需要包括⼏个⽅⾯：

1.对训练的LDA模型，将Topic-word分布⽂档转换成字典，⽅便查询概率，即计算perplexity的分⼦

2.统计测试集长度，即计算perplexity的分母

3.计算困惑度

4.对于不同的Topic数量的模型，计算的困惑度，画折线图。

python代码如下：

1 # -*- coding: UTF-8-*-

2 import numpy

3 import math

4 import string

5 import matplotlib.pyplot as plt

6 import re

8 def dictionary_found(wordlist): #对模型训练出来的词转换成⼀个词为KEY,概率为值的字典。

9 word_dictionary1={}

10 for i in xrange(len(wordlist)):

11 if i%2==0:

12 if word_dictionary1.has_key(wordlist[i])==True:

13 word_probability=word_dictionary1.get(wordlist[i])

14 word_probability=float(word_probability)+float(wordlist[i+1])

15 word_dictionary1.update({wordlist[i]:word_probability})

16 else:

17 word_dictionary1.update({wordlist[i]:wordlist[i+1]})

18 else:

19 pass

20 return word_dictionary1

22 def look_into_dic(dictionary,testset): #对于测试集的每⼀个词，在字典中查找其概率。

23 '''Calculates the TF-list for perplexity'''

24 frequency=[]

25 letter_list=[]

26 a=0.0

27 for letter in testset.split():

28 if letter not in letter_list:

29 letter_list.append(letter)

30 letter_frequency=(dictionary.get(letter))

31 frequency.append(letter_frequency)

32 else:

33 pass

34 for each in frequency:

35 if each!=None:

36 a+=float(each)

37 else:

38 pass

39 return a

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

Aamboo

粉丝: 14
资源: 559

用python计算lda语言模型的困惑度并作图

评论0

最新资源

用python计算lda语言模型的困惑度并作图

评论0

python实现 LDA主题词模型

基于python的LDA模型实现代码

LDA.zip_LDA 聚类 python_LDA+聚类 python_LDA文本聚类_onexpq_文本 聚类

Python 基于 LDA主题模型进行电商产品评论数据情感分析.zip

LDA的python 实现代码

主题模型 LDA (Latent Dirichlet Allocation)

gensim包LDA主题分析，并输出每条矩阵属于每个主题的概率

LDA文档-主题项目

自然语言处理 —— 困惑度

用LSTM、GRU来训练字符级的语言模型，计算困惑度

【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

python-LDA主题分析

Python实现LDA主题模型以及模型可视化

python-LDA, lda算法的python实现

python-LDA:lda模型的python实现

Python实现LDA模型完美版.zip_alsoh5n_gulf6og_oughtt1c_python实现LDA_python

Python实现的LDA模型执行简单的文字片段分类任务.zip

基于Python构建豆瓣小组话题帖LDA主题模型源码.zip

python-LDA-master.rar_Python文本_lda_lda python_python LDA_自然语言处理

基于Python实现的豆瓣小组话题帖LDA主题模型构建源码+超详细注释.zip

基于Python爬虫技术和LDA模型的短文本获取技术分析.pdf

Python Topic模型LDA

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

大麦网抢票脚本【Python脚本】

最新资源

LDA.zip_LDA 聚类 python_LDA+聚类 python_LDA文本聚类_onexpq_文本聚类

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar