VIP会员
作者:CSDN
出版社:CSDN《程序员》
ISBN:1111111111117
VIP会员免费
(仅需0.8元/天)
¥ 40000.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
python文本分析 评分:
python文本分析有关讲义,该讲义为网易云科课堂配套的
上传时间:2018-07 大小:522KB
- 672KB
基于python文本分析
2018-07-02文本分析内容主要介绍基于神经网络下的情感分析,主要以介绍为主
- 787KB
python文本分析与处理
2018-01-25python文本分析与处理,比较轻量级的资源文件。 python文本分析与处理,比较轻量级的资源文件。
- 418KB
文本分析.pdf
2017-11-02文本分析的东西。可以看看文本分析的东西。可以看看文本分析的东西。可以看看文本分析的东西。可以看看文本分析的东西。可以看看
- 406.57MB
Python中文文本分析(期末大作业).rar
2021-08-05Python读取小说文本,绘制词云图,主要人物出场次序,社交网络关系图,章回字数,有报告、详细说明和代码注释,有可执行文件.exe
- 19.38MB
Python文本分析测试数据及案例代码.zip
2021-05-24Python文本分析测试数据及案例代码
- 611KB
python 文本分析基本操作;机器学习基础
2023-04-29python 文本分析基本操作;机器学习基础;python 文本分析基本操作;机器学习基础;python 文本分析基本操作;机器学习基础;python 文本分析基本操作;机器学习基础;python 文本分析基本操作;机器学习基础;...
- 2.48MB
应用python文本分析
2018-05-23应用python进行基本的文本处理、分析。包括语料库的创建和模型的选择
- 38.70MB
Python文本分析
2021-01-18Python文本分析
- 3KB
python文本分析利用分类算法实现对文本的数据挖掘
2023-01-30python文本分析利用分类算法实现对文本的数据挖掘,主要包括: 1. 语料库的构建,主要包括利用爬虫收集Web文档等; 2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典, 使用词袋模型或主题模型表达...
- 2.98MB
Python做文本情感分析之情感极性分析
2018-02-23文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。 本文使用python来做文本情感分析
- 38.1MB
中文文本情感分析案例和数据集
2021-07-08中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练集,用于模型训练 预处理程序 预处理程序文件夹是供大家研究预处理的程序,主要涉及到正则表达式知识点
- 96KB
Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
2020-09-20主要介绍了Python实现购物评论文本情感分析操作,结合实例形式分析了Python使用中文文本挖掘库snownlp操作中文文本进行感情分析的相关实现技巧与注意事项,需要的朋友可以参考下
- 19.53MB
基于gensim的文本主题模型(LDA)分析
2016-01-05博客《基于gensim的文本主题模型(LDA)分析》对应文档
- 3.44MB
python-LDA主题分析
2016-07-20利用python对文本进行LDA主题生成模型,里面有使用方法说明,可以自己设置参数等。
- 54.47MB
Python文本分析教程.rar
2023-03-27Python文本分析教程介绍及贝叶斯算法结束,及搜狗新闻语料。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词。教程源代码。
- 49KB
基于python的上市公司年报分析(pdf转txt,停用词过滤,关键词分析,文本分析)
2022-04-09人工智能_项目实践_上市公司年报_基于python的上市公司年报分析(pdf转txt,停用词过滤,关键词分析,文本分析)
- 984KB
基于Python的红楼梦文本分析.zip
2020-05-20Dream_of_the_Red_Kmeans.py :基于python实现红楼梦聚类分析的主程序 Dream_of_the_Red_Mansion.txt : 红楼梦txt KMeansCluster_Class.py :自己编写的KMeans程序 Red_Mansion_Dictionary.txt : 红楼梦人物名,...
- 2.31MB
Python+文本分析合集
2023-06-13python文本分析 Python以字符串的形式表示文本,这些字符串对象对应的类是str。它是一种不可变序的UNICODE或字符。有一点必须仔细区分:Python 3中,所有字符串默认是UNICODE;但在Python 2中,str类限制为ASCII码,...
- 64.65MB
Python数据分析大作业 4000+字 图文分析文档 销售分析 +完整python代码
2021-07-16根据某商场货物销售数据 利用python实现数据可视化 进行分析 代码2000+行 文档预览:https://blog.csdn.net/weixin_45741872/article/details/118787250
- 248KB
python情感分析代码
2019-03-27python情感分析代码 源码数据源都有 功能比较全 可以下载参考
- 28KB
python文本相似度分析
2019-01-26python爬虫,以及相似度分析,可以分析两个文本字符串的相似度
- 26KB
基于python的TXT解析器 parser 包含各个版本的代码 见注释
2018-03-01用python根据需求完成一个TXT解析器的简单开发 一 修改说明: 需求一: 一开始说要解析UECapabilityInfo 消息里的supportedBandCombination-r10 这个IE里的CA组合转化成易阅读的表现形式. 我以为一组CA组合就是一组: bandEUTRA-r10 ca-BandwidthClassUL-r10 ca-BandwidthClassDL-r10 supportedMIMO-CapabilityDL-r10 功能实现: 有效信息筛选:于是就用循环把UECapabilityInformation的数据里每一行作为一个元素放到list里面 然后用bandEUTRA-r10作为一组CA的识别信息、在筛选出同组ca-BandwidthClassUL-r10、ca-BandwidthClassDL-r10、supportedMIMO-CapabilityDL-r10的信息,添加保存到字符串中,然后再把字符串作为元素添加到list中去。最后遍历list的元素写入目标文件 需求二: 然后收到反馈CA组合的理解是错误的。一组CA组合应该是以大括号作为识别的,里面可能包含多组: bandEUTRA-r10: ca-BandwidthClassUL-r10 ca-BandwidthClassDL-r10 supportedMIMO-CapabilityDL-r10 CA组合识别原理:在查看UECapabilityInformation内的CA组合后 发现CA组合内第一个 bandEUTRA-r10因为比其他bandEUTRA-r10多了一层的CA组合的大括号,所以如果给每一行增加索引的话就会发现除了第一个bandEUTRA-r10,其他bandEUTRA-r10到上一个supportedMIMO-CapabilityDL-r10的距离都是一样的,为了减少复杂度,我删除了所有’{’,这样所有除了所有CA组合第一个bandEUTRA-r10往上第四行是’}’其他bandEUTRA-r10的往上第四行都是supportedMIMO-CapabilityDL-r10 功能实现: 添加索引:便利时用了for enumerate()循环,这样便利时可以在循环时,自动为每个元素生成索引 CA组合识别:在识别到bandEUTRA-r10时,增加一个判断if datalist1[index-4].startswith(),如果bandEUTRA-r10的往上第四行是supportedMIMO-CapabilityDL-r10说明同组CA未结束,把筛选的有效信息强制类型转换后添加在上个元素末尾,反之则说明是个新的CA组合,往列表里添加一个新的元素。 需求三: 之后收到反馈CA组合虽然识别了,但是排序不行,需要按照CA组合支持的band进行排序 功能实现: 排序:于是我在识别完CA组合后,增加了一个循环和count(),用CA组合里的’-’给它们归类 比如1AA,11A,21AA是一类;1A-1A,2A-1AA,3A-1A是一类 在用一个中间变量保存开头的band的数字,一个类中把开头支持band的数字字母相同的CA组合归为一行 比如1A-21A,1A-22A一类1AA-2AA 1AA-3AA为一类 需求四: 之后收到反馈,CA组合分类不能只按照开头比较分类,不然一但数据多了会对查阅带来极大不便,应该按照每组CA组合中bandEUTRA-r10的值进行判断,比如1AA-2AA,1A-2AA和1AA-2A应该归在同一行 实现原理:首先我想的是按位比较数字,但是因为字母的数量不稳定,数字的位置不一定对应,然后我就想把数字全部提取出来作为索引,在相应的索引后面添加同组元素,用dict来实现排序。难点就在于从字符串中提取数字。后来在python的正则表达式中找到相关的处理函数compile()(设置匹配对象类型)和findall()(找到所有匹配对象并以list返回)。 功能实现: 第二次排序:在上次的排序中我保留了分类和从小到大的排序。方便提取索引时,索引也是从小到大。每遍历一个元素(CA组合有效信息),就compile()和findall(),从该元素中提取数字组合(在compile()的参数中添加()就能够使提取的内容成为一组数据),然后通过dict自带函数setdefault()添加索引,并可以设置索引值为list类型(dict类型的索引的值不可变,但如果类型为list,list的内容可以进行改动),避免重复索引,在本次遍历中完成将元素添加到索引值对应的list中去 需求五: 之后对程序进行测试,在测试test2时发现layers增加了fourlayers类型后,用来代表layers的数字2和4会影响分类结果。比如1AA(2)-1AA(2)和1A(4)-1A(2)会被归为两类。 test1:当CA组合的格式为xx-xx-xx-xx-xx(最长可识别为五位元素的组合,再长就需要修改代码) test2:当CA组合包含fourLayers test3:当CA组合缺失某种格式比如xx-xx时发现layers增加了fourlayers 功能实现: : 解除layers对排序的影响:用II 和 IV替代2,4来表示layers,测试后不影响阅读与分类 二、整体程序架构: 1.通过循环和自带的startswith()先将每组CA组合的有效信息识别 2.通过sorted()函数将所有CA组合从小到大排列 3.通过count()函数将所有CA组合根据格式不同分类 4.通过循环和正则表达式的split()对所有CAlist数据进行处理(用split处理只是防止出现不必要的错误) 5.通过循环和正则表达式compile()和findall()识别所有CA组合中数字,并将同一组合中的数字合为一个元素(在同一循环,用这个数字的元素作为一个dict的索引),用dict自带的setdefault()进行Key的添加顺便设置Key的值为list,避免Key重复,在用append把当前Key的字符串,添加到Key对应值的list中去 6.最后对dict整体遍历,将每一个Key的值输出到文本中去。
- 7.3MB
文本情感分析
2018-07-19淘宝商品评价及新闻评论情感倾向分析,使用了python来实现。模型包括RNN和CNN
- 522KB
机器学习文本分析
2018-07-24关于机器学习中文本分析的案例ppt,讲解文本分析的主要步骤
- 969KB
Python文本解析研究和比较.pdf
2021-06-29Python文本解析研究和比较.pdf
- 9.20MB
Python文本数据分析:新闻分类任务
2021-07-08Python文本数据分析:新闻分类任务 【软件包】 jieba pandas wordcloud matplotlib sklearn 【概念】 IDF:逆文档频率逆文档频率TF-IDF=词(TF)X逆文档频率(IDF)词频(TF)=某词该在文章中出现次数/文出现次数最多的...
- 183KB
文本分类算法分析(一种很好的文本分类算法)
2010-05-12一种很好的分类算法,字数还得大于20,你爷爷的。好东西就是好东西。
- 29.74MB
python大作业 含爬虫、数据可视化、地图、报告、及源码(2016-2021全国各地区粮食产量).rar
2022-05-01(含源码及报告)本程序分析了自2016年到2021年(外加)每年我国原油加工的产量,并且分析了2020年全国各地区原油加工量等,含饼状图,柱状图,折线图,数据在地图上显示。运行本程序需要requests、bs4、csv、pandas、matplotlib、pyecharts库的支持,如果缺少某库请自行安装后再运行。文件含6个excel表,若干个csv文件以及一个名字为render的html文件(需要用浏览器打开),直观的数据处理部分是图片以及html文件,可在地图中显示,数据处理的是excel文件。不懂可以扫文件中二维码在QQ里面问。
- 3.98MB
2022建模国赛代码(三天坚持不易) 包括K-meas算法、bp预测、回归预测,(python和matlab做的).zip
2023-08-232022建模国赛代码(三天坚持不易) 包括K-meas算法、bp预测、回归预测,(python和matlab做的).zip