没有合适的资源?快使用搜索试试~
我知道了~
文库首页
大数据
统计分析
根据大量文章去统计汉字的使用频率,《现代汉语常用字表》: 基于现代汉语语料库的单字频率
根据大量文章去统计汉字的使用频率,《现代汉语常用字表》: 基于现代汉语语料库的单字频率
常用汉字
需积分: 1
0 下载量
53 浏览量
2024-10-17
16:32:53
上传
评论
收藏
94KB
CSV
举报
温馨提示
立即下载
开通VIP(低至0.43/天)
买1年送3个月
汉字的使用频率
资源推荐
资源评论
兰卡斯特汉语语料库LCMC语料库
浏览:11
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分...
现代汉语语料库
浏览:197
现代汉语语料库是语言学研究中的重要资源,主要用于深入理解和分析现代汉语的语言现象。它是由3500个常用汉字构成的大量文本数据集合,经过精心清洗和去重处理,确保了数据的质量和准确性。这个语料库包含了554,026...
古代汉语语料库汉字频率表
浏览:167
古代汉语语料库汉字频率表,语料规模:1500万字
CorpusWordPOSlist.xls现代汉语语料库
浏览:191
本Excel有16254条数据,为语委现代汉语语料库,内容丰富,专为深度学习中的词性标注工作准备,望周知。
基于特定语料库的TF-IDF的中文关键词提取
浏览:162
对于特定语料库的中文关键词提取,我们需要考虑中文的特殊性,如词与词之间的边界不明显、存在词形变化少等特点。 首先,我们要对中文文本进行预处理,包括分词、去除停用词(如“的”、“和”等常见但信息量低的...
基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究_赵小兵.caj
浏览:152
基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究_赵小兵.caj
汉字单字字频总表(汉字使用频率统计表)
浏览:174
“汉字使用频率统计表”这样的数据资源,对于字体设计师来说非常宝贵。在设计字体时,可以优先处理使用频率高的汉字,确保常用的字形质量和渲染速度,从而提高用户体验。同时,对于字体打包,可以根据字频表来决定...
语料库检索工具
浏览:126
语料库检索工具是语言学家、自然语言处理(NLP)研究人员和文本分析专家不可或缺的资源,用于在大量文本数据中查找特定模式、频率或语言现象。这些工具可以帮助用户高效地挖掘语料库中的信息,从而支持研究、教学、...
现代汉语语料库加工规范(pku)
浏览:197
### 现代汉语语料库加工规范解读 #### 一、引言 北京大学计算语言学研究所自1992年起便投身于汉语语料库的多级加工研究,其核心工作之一便是对原始文本进行词语切分及词性标注。1994年发布的《现代汉语文本切分与...
汉字使用频率统计
浏览:55
5星 · 资源好评率100%
在给定的数据中,我们可以看到一个关于汉字使用频率的具体统计表。该表格包含了部分汉字及其出现频率的信息,以及这些汉字在整个文本中所占的比例。这对于了解哪些汉字更常用,以及如何优化输入法以提高用户输入效率...
Brown语料库和LOB语料库
浏览:195
5星 · 资源好评率100%
Brown语料库是世界上第一个计算机可读的语料库,它搜集的语料来自1961年美国英语出版物上的文本,共500篇,每篇大约2000个单词,合计100万单词。LOB语料库是模仿Brown语料库的比例建立起来的英国英语语料库,其预料...
中英语料库已对齐
浏览:65
《中英语料库已对齐》 在自然语言处理(NLP)领域,语料库是研究和开发的重要资源。一个高质量的语料库能够帮助我们训练和优化各种语言模型,如机器翻译、语音识别、情感分析等。本文将详细讨论“中英语料库已对齐...
汉语语料库加工规范
浏览:166
《现代汉语语料库加工规范——词语切分与词性标注》是汉语处理领域的重要指导文档,它规定了如何对汉语文本进行标准化处理,以便于计算机理解和分析。在这个规范中,词语被分为不同的类别,并用特定的代码进行标记,...
微软亚洲研究院中文分词语料库
浏览:7
4星 · 用户满意度95%
微软亚洲研究院中文分词语料库是为中文自然语言处理领域提供的重要资源,它在中文分词研究中扮演了核心角色。中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将...
语料库研究与应用综述
浏览:115
该语料库规模预计达到7000万字,主要以书面语为主,旨在全面反映现代汉语的使用特点。 综上所述,语料库不仅是语言学研究不可或缺的工具,也是推动自然语言处理技术进步的关键因素。随着技术的不断进步和社会需求的...
中文二十几个行业的语料库.zip
浏览:169
4星 · 用户满意度95%
《中文二十几个行业的语料库》是一个非常宝贵的资源,它涵盖了多个行业的文本数据,为进行深入的文本分析提供了丰富的素材。这个压缩包的核心是“funNLP-master”子文件,这是一个可能包含各种处理中文文本的工具或...
基于Python自然语言处理工具包在语料库研究中的运用.pdf
浏览:144
5星 · 资源好评率100%
当前基于语料库的研究在国内主要使用AntConc、PowerGREP等专业工具进行数据处理和分析。这些工具虽然功能强大,但在数据处理方法的灵活性上有所欠缺。随着Python自然语言处理(NLP)工具包NLTK的引入,研究者们开始...
美国当代英语语料库COCA词频20000 (完整)【包含常用格式】
浏览:26
5星 · 资源好评率100%
COCA(Corpus of Contemporary American English)是目前最广泛使用的现代美语语料库之一,包含了自1990年代初至今的大量英语文本数据。这个压缩包提供了词频排名前20000的词汇,旨在帮助用户了解和掌握最常用的英语...
中英平行语料库
浏览:172
4星 · 用户满意度95%
《中英平行语料库:构建智能语言处理的基石》 在信息技术日益发达的今天,自然语言处理(NLP)已经成为了人工智能领域的一个重要分支。其中,中英平行语料库作为NLP研究的核心资源,对于提升机器翻译、问答系统等...
NLP:保险行业语料库,聊天机器人.zip
浏览:105
5星 · 资源好评率100%
问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以...
1998年人民日报语料库全
浏览:186
这个语料库的建立为研究者提供了丰富的中文文本,可用于进行一系列的自然语言处理任务,如中文分词、词频统计、情感分析、主题建模以及文本挖掘等。 首先,我们来谈谈中文分词。中文分词是中文处理的基础步骤,因为...
中文情感分析语料库
浏览:72
5星 · 资源好评率100%
《中文情感分析语料库详解及其应用》 中文情感分析语料库是研究自然语言处理领域,特别是情感分析技术的重要资源。它包含了五个主要领域的评价数据:酒店、服装、水果、平板(PDA)和洗发水,总计25000条评价,这些...
微软亚洲研究院语料库
浏览:57
3星 · 编辑精心推荐
微软亚洲研究院语料库是一个广泛用于中文自然语言处理领域的数据集,它包含了UTF-8和GBK两种常见的中文编码格式。这个语料库的创建旨在推动中文信息处理技术的发展,特别是对于中文分词这一基础任务的研究。 中文...
人工智能-项目实践-聊天语料库-中文公开聊天语料库
浏览:101
5星 · 资源好评率100%
人工智能-项目实践-聊天语料库-中文公开聊天语料库 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖...
NLP:基于语料库对语句进行中文分词处理.zip
浏览:8
5星 · 资源好评率100%
基于语料库对语句进行中文分词处理 基于语料库,实现以下操作:加载语料库进行n-gram词频统计生成词典;用生成的词典生成有意义的语句;对任意输入语句进行正确分词,实现FMM和BMM的分词方法。有GUI界面
基于网页的语料库自动生成.pdf
浏览:60
基于网页的语料库自动生成是指通过网页爬虫技术和自然语言处理技术,将网络上大量的网页信息自动提取、处理和整理,生成一个语料库的过程。这个过程可以自动完成语料库的构建、更新和维护,减少人工劳动的投入,提高...
NiuTrans中英平行语料库10万句
浏览:69
5星 · 资源好评率100%
使用NiuTrans的中英平行语料库进行机器翻译模型训练时,研究者首先需要预处理数据,包括分词、去除噪声、创建词汇表等步骤。接着,可以选择合适的模型架构,例如基于短语的SMT模型或端到端的NMT模型。训练过程涉及...
中文人名语料库(Chinese-Names-Corpus)
浏览:85
2. **命名规则分析**:通过分析语料库,研究人员可以了解中文人名的构造规则,如常见姓氏、常用字的选择偏好以及双字名和三字名的频率等。 3. **多样性与文化理解**:中文人名反映了丰富的文化和历史背景,语料库...
中文文本分类_新闻语料库.zip
浏览:140
5星 · 资源好评率100%
《中文文本分类与语料库建设详解》 中文文本分类是自然语言处理领域的重要研究方向,它涉及到机器学习、深度学习以及自然语言理解等多个技术。在这个任务中,计算机需要理解和识别文本内容,然后将其归类到预定义的...
评论
收藏
内容反馈
立即下载
开通VIP(低至0.43/天)
买1年送3个月
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
lihandsome
粉丝: 24
资源:
21
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
基于tensorflow的道路桥梁裂缝检测应用源码
多台设备循环控制仿真和代码protues仿真
多台设备循环控制原理图
基于51单片机protues仿真的控制四个伺服电机的采摘机械手(仿真图、源代码)
基于单片机的家禽养殖投食系统设计,包括仿真和原理图
C语言实现水仙花数查找算法及其应用
旅行商问题及其在组合优化领域的数学模型、解法及应用探讨
基于STM32的无线心率监测系统设计与实现
code_20241105.py
HTML+CSS+JS网页设计基础及实战指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功