没有合适的资源?快使用搜索试试~
我知道了~
文库首页
行业
互联网
基于大规模语料的新词发现算法
基于大规模语料的新词发现算法
新词发现算法
5星
· 超过95%的资源
需积分: 27
30 下载量
5 浏览量
2012-11-26
23:32:43
上传
评论
收藏
44KB
DOCX
举报
温馨提示
立即下载
基于大规模语料的新词发现算法文章,很好的一篇文章,共享给大家
资源推荐
资源评论
新词发现方法
浏览:87
5星 · 资源好评率100%
不错的新词发现方法,利用了pat-array, 倒排索引
基于词表和N-gram算法的新词识别实验
浏览:122
基于词表和N-gram算法的新词识别实验
搜狗词库新词发现算法
浏览:43
搜狗词库新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、实体抽取等等
java使用Nagao算法实现新词发现、热门词的挖掘
浏览:111
主要介绍了java使用Nagao算法实现新词发现、热门词的挖掘的思路和详细代码,需要的朋友可以参考下
AutoPhrase:AutoPhrase:Massive Text Corpora中的自动短语挖掘
浏览:100
自动短语:从大量文本语料库中自动进行短语挖掘 刊物 如果您使用的是我们的工具,请引用以下两篇论文。 谢谢! 尚静波,刘加禄,姜萌,任翔,Clare R Voss,韩佳玮,“”,被IEEE Transactions on Knowledge and Data Engineering,2018年2月接受。 刘加鲁*,尚静波*,王驰,任翔和韩佳伟,“”,2015年ACM SIGMOD国际数据管理大会
AutoPhrase: Automated Phrase Mining from Massive Text Corpora
浏览:77
著名经典论文AutoPhrase: Automated Phrase Mining from Massive Text Corpora
Python-python3实现互信息和左右熵的新词发现
浏览:84
python3利用互信息和左右信息熵的中文分词新词发现
基于中文关键短语的自动提取方法综述
浏览:171
Segphrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是 Seg Phrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对 Segphrase算法进行了改进。在短语产生阶段,通过利用词串间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短
处理好的人民日报语料,可以直接用CRF训练命名实体
浏览:185
处理好的人民日报语料,用于命名实体识别,两个文件分别为字符集和词语级
一种基于海量语料的网络热点新词识别方法
浏览:36
基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。实验和数据分析表明,该框架能高效可靠地从大规模语料中提取重
论文研究-一种基于大规模语料的新词识别方法.pdf
浏览:47
针对k均值聚类提取关键帧存在的不足,提出了优化初始聚类中心的关键帧提取算法。该算法的初始聚类中心由视频数据本身的分布来决定,增强了结果的稳定性;聚类数k不再唯一地决定于给定值,而是根据视频内容自适应获得最佳取值。实验表明该算法有良好的自适应性,获得的关键帧能有效地代表视频内容。
论文研究-基于互信息和邻接熵的新词发现算法.pdf
浏览:133
如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题
大规模语料重复串发现算法.doc
浏览:72
大规模语料重复串发现算法.doc......................
基于互信息和邻接熵的新词发现算法
浏览:85
如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的 问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语 与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首 尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部 分新词无法识别以及通过 n-gram 方法导致大量重复词串和垃圾词串识别
new-words-algorithm:文本新词发现算法优化案例
浏览:29
new-words-algorithm 文本网络新词发现算法的优化案例 一、代码结构 优化前的文本网络新词发现算法位于包:com.baitengsoft.bigdata.nwa.algm1 优化后的文本网络新词发现算法位于包:com.baitengsoft.bigdata.nwa.algm2 二、文本网络新词发现算法介绍 文本网络由字符节点和连线(有向)组成。 字符节点表示在文本内容中出现过的一个
基于Spark的大规模网络结构发现算法
浏览:56
当今社会处于大数据时代,现实中的网络数据越来越多,其结构复杂、规模庞大,有效分析其结构对了解、应用其提供的信息具有重要作用。基于混合模型的网络结构发现算法可挖掘网络中的多类型聚类结构,但不能有效处理大规模网络。基于GraphX图计算模型,提出基于Spark的大规模网络的结构发现算法LNSES,从存储空间和运行时间两方面提升算法效率。为减少网络结构发现算法存储大规模网络邻接矩阵内存耗费量,LNSES
基于古汉语语料的新词发现方法.pdf
浏览:163
古汉语语料的新词发现方法
基于互信息改进算法的新词发现对中文分词系统改进
浏览:102
基于互信息改进算法的新词发现对中文分词系统改进
结合关联置信度与结巴分词的新词发现算法
浏览:86
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语
基于概率模型的大规模网络结构发现方法
浏览:195
随着万维网和在线社交网站的发展,规模大、结构复杂、动态性强的大规模网络应用而生.发现这些网络<br>的潜在结构,是分析和理解网络数据的基本途径.概率模型以其灵活的建模和解释能力、坚实的理论框架成为各领<br>域研究网络结构发现任务的有效工具,但该类方法存在计算瓶颈.近几年出现了一些基于概率模型的大规模网络结<br>构发现方法,主要从网络表示、结构假设、参数求解这3 个方面解决计算问题.按照模型参数
基于新词发现的跨领域中文分词方法.docx
浏览:191
基于新词发现的跨领域中文分词方法.docx
博士论文基于大规模问答语料的问题检索系统
浏览:184
4星 · 用户满意度95%
博士论文基于大规模问答语料的问题检索系统
基于词内部结合度和边界自由度的新词发现 (2015年)
浏览:145
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计“散串”,最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。
基于词内部结合度和边界自由度的新词发现
浏览:130
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。
论文研究-基于数据挖掘的新词发现.pdf
浏览:36
利用文本挖掘技术提出了一种用于主题式搜索引擎的专业词典库发现新专业词汇的方法,详述了如何通过关联规则挖掘来实现专业词典库的扩展,并在此基础上进行了小样本实验,实验结果显示该方法有效可行。
基于词向量的情感新词发现方法_杨阳1
浏览:43
摘要:词语级的情感倾向性分析一直是文本情感计算领域的热点研究方向,如何自动识别情感新词,并判断其情感倾向性已经成为当前亟待解决的问题。首先用基于统计量的方法识别
Java 面经手册·小傅哥.pdf
浏览:132
5星 · 资源好评率100%
这是一本以面试题为入口讲解 Java 核心内容的技术书籍,书中内容极力的向你证实代码是对数学逻辑的具体实现。当你仔细阅读书籍时,会发现Java中有大量的数学知识,包括:扰动函数、负载因子、拉链寻址、开放寻址、斐波那契(Fibonacci)散列法还有黄金分割点的使用等等。 适合人群 1. 具备一定编程基础,工作1-3年的研发人员 2. 想阅读 Java 核心源码,但总感觉看不懂的 3. 看了太多
解压后拖入浏览器扩展程序使用.zip
浏览:161
5星 · 资源好评率100%
解压后拖入浏览器扩展程序使用
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
tcz2100
2015-09-22
理论讲的不错!
柳枫大人
2015-08-22
全篇都是理论性的文字,具体实现较少
lly7858
2015-09-09
理论性文章
oXiaoWo1234
粉丝: 0
资源:
1
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
视觉毫米波简单后融合方法.pdf
自动驾驶定位系列教程十二:关于建图的讨论.pdf
msvcp140.dll丢失的解决方法
docker制作alpine-jdk-maven镜像
YOLOv5算法站立-跌倒-吸烟行为检测模型+数据集
滚动garch模型Rolling GARCH
自动驾驶定位系列教程十: 前端里程计扩展.pdf
毕设绝技-兼职论坛(ssm)
271ssm-mysql-jsp 动漫之家系统.zip(可运行源码+数据库文件+文档)
毕设绝技-就业信息管理(spring boot+layui)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功