论文研究-结合词性分析与串频统计的词语提取方法.pdf


-
论文研究-结合词性分析与串频统计的词语提取方法.pdf, 在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高
第1期 于娟,等:结合词性分析与串频统计的词语提取方法 107 例1在今天,信息系统为企业提供了通信和分析能力,使其可以在全球范围内指导贸易和管理业务.全 球性企业要与分销商和供应商通信,要在不同国家的环境之下每天24小时运作,要为本地和国际范围内的 需求提供服务,因此控制全球性企业是一个主要的商业挑战,它需要功能强大的信息系统的响应 32文本分词与标注 该模块对标准化文本进行原子词切分,并标注每个词的二级词性.所谓原子词切分是指扫描文本,将其 切分为原子词的自然语言处理技术.日前,最具代表性的中文原子词切分系统有二:1)中国科学院计算技术 研究所基于统计方法和简单语法分析研发的 ICTCLAS1-12;2)哈尔滨工业大学信息检索研究室基于统计 方法的 ISLAS系统.这两个分词系统都能达到90%以上的准确率.本文采用 ICTCLAS实现文本分词与 原子词词性标注.本文所用 ICTCLAS1.0版本是一个公开源码的免费的测试版本.该版本对原子词的词性 标注有两种,一种是一级词性标注,即,名词(标注为m),动词(v)等;另一种是二级词性标注山,将一级标 注细化为不同的细分词性,如名词被细分为名词性语素(ng),人名(nr),地名(ns),等 例1中的标准化文本经过 ICTCLAS1.0切分和词性标注后的结果如例2所示 例2在/p今天/,w信息n系统/n为/p企业/n提供/v了/u通信/vn和/c分析/vn能力/n,/w 便/v其/r可以/V在/全球/n范围/n内/f指导/v贸易/n和/c管理/Ⅶn业务/n·/w全球性/n企业/n要/v 与/c分销/Ⅶn商/和/c供应商/n通信/Ⅶn,/w要/在/p不同/a国家/n的/u环境/n之下/f每天/r24/m 小时/n运作/vn,/w要/v为/p本地/r和/国际/n范围/n内/f的/u需求/n提供v服务/Ⅶn,/w因此/控 制/vn全球性/n企业/n是y一个/m主要/b的/u商业/n挑战/Ⅶm,/w它/r需要/功能/n强大/a的/信 息/n系统/n的/u响应/vn./w 需要说明的是,1 CTCLAS1.0是 ICTCLAS的早期版本.其最新版本 ICTCLAS304对一级和二级词 性中有必要加以区别的子类进行更为细致地划分,扩充了二级词生,并增加三级词性.如,将动词(v)的二级 词性扩充为:趋向动词(ⅵf),形式动词(wx),不及物动词(ⅵi),动词是(vshi),动词有(wωu,等.二级词性人 名(nr)细分为三级词性:汉语姓氏(nr1),汉语名字(nr2),音译人名(nrf)等.可以合理猜测,如果分词与词 性标注模块采用3.0版本,将会使本文中的方法获得更优良的性能. 33无用原子词删除 该模块处理经过原子词切分和词性标注的文本,分两步删除那些一般不参与组成合成词的原子词,输出 结果为由保留原子词组成的一组词串的集合.该模块首先根据词性删除无法构词的原子词,将标注为特定词 性的词删除,如介词,语气词等.然后删除停用原了词,即那些从词性上判断有可能枃成合成词但试验证明 般不参与构词的词,如,是,把握,进行,不少等 为方便后续说明,做如下定义 定义1原子词串( Atomic word scrics/ string),是山一个或多个原子词组成的有限序列本文记为AWS a1-22-…an1-”,AWS是原子词串名,a12-…an-为原子词串值,an(1≤i≤m)是原子词,m为 原子词串的长度.原子词之间的隔离符为半角空格,为明显起见,不妨采用下划线“”表示空格 定义2原子词串的子串,是由原子词串中任意个连续的原子词组成的子序列 331根据词性删除 这一步骤根据词性删除无法构词的鳳子词、在输入经过切分和词性标注的文本后,该模块倸留那些标注 为特定诃性的原子词,将不能构词或者试验证明构词率低于阈值的原子词替换为换行符,这样,输岀的是原 子词串的有序集合,原子词串由保留的原子词构成.输出结果中,原子词之间采用单个空格作为间隔,原子词 串之间采用换行符作为间隔 该模块采用两种标准决定词性是否保留:一个是经验确定不參与构词的词性,如介词,助词等;另一个是 大量试验结果证明构词率过低(本文指低于0.05)的词性所谓构词率(Word- formation ratic)是指:包含该 词性原子词的原子词串是词语的概.即: 构词率 词语的数目 包含该词性原子词的原子词串的数目 表1列举所有保留的词性,包括一级词性及其细分的二级词性 表2列举被删除的词性.其中的个别词性在特殊情况下也参与构词,但因其构词率极低,保留这些词性 将大幅降低整个提词方法的泩确率,因此,在不大幅影响召回率的情况下,选择排除这些词性. 108 系统工程理论与实践 第30卷 表1保留的词性 级词性 表示符号 几级词性 构词率 举例 名词 级 功能/n强大/a 名词性语素 级 DNA/nx断链/ng反应/v 人名 nI 二级 贝叶斯/n方法/n 地名 二级 四川 机构团休名 二级 卫生部/nt 未知词 IX 二级 ATM/nx 其他专名 nz 二级 海尔/nz集团/n 动词 级 知识/n产权/n溢用/v 副动词 二级 0.13 智能/n辅助/vd决策/v 动词性语素 二级 0.0 中国/s企业/n集/vg群/ng 名动词 二级 安全/an管理/vn 副词性语素 d 二级 0.095 产品/n差/dg异化/v 形容词 级 0.086 独立/a董事/n 副形词 二级 0.074 信息/n系统/ad集成/v 形容词性语素 二级 0.087 知/ag性/ng 名形词 an 二级 危险/an源/ng 区别词 b 级 中小/b投资者/n 前缀 级 非/h负/b矩阵/n 后缀 k 级 学习/v型/k组织/v 惯用语 级 自然规律/1 处所词 级 0.077 地下/s水资源/n 状态词 级 随机/z变量 表2删除的词性 级词性 表示符号 几级词性 构词率 举例 时间词 瞬间/t 时间词性语素 tg 0.03 供货/v商/tg 方位词 f 0.026 经济/n背景/n下/f 代词 我们/r 数词 叉/n树/ 量词 多/m年/ 副词 d 随机/d分析/y 介词 p 级级级级级级级级级级级级级 根据/p 连词 和/c 助词 地/u 叹词 唉/ 语气词 啊/y 拟声词 咔/o嚓/o 字符串 豆/n芾/x矸/nr 点符号 表1和表2将二级标注的词性分为保留词性和删除词性两种.需要说明的是: 1)表1中,区别词,前缀,后缀,惯用语,状态词等词性是依据多次试验结果证明需要保留的词性 2)两表中,列出构词率的词性是那些对于是否删除存在争议的词性.其中,试验证明构词率高于0.05的 词性被保留 3)两个表列举了 ICTCLAS1.0中使用到的所有的一级和二级词性 4)尽管 ICTCLAS1.0是一个原子词切分系统.但是个别词性也会出现合成词,如,惯用语.这不会对本 文方法的性能产生影响 例2中的文本经过该模块处理后生成一个原子词串的有序集合,如例3所示 第1期 于娟,等:结合词性分析与串频统计的词语提取方法 109 332停用原子词删除 该步骤依据停用原子词词表进一步删除原子词,将停用原子词替换为换行符,由此生成新的原子词串的 有序集合停用词词表中的词是标注为保留词性但一般不能构词的原子词,如,是()要(v)提供(),不少 (a)等.本文依据项目小组以前的工作中积累下的停用词词表以及试验结果建立了该方法中的停用原子词词 表 例3中的原子词串集合经过停用原子词删除的处理后形成了新的原子词串集合,如例4所示 例 例4 国家 不同国家 环境 信息系统 环境 信息系统 小时运作 企业提供 小时运作 企业 国际范围 通信 要 選信 分析能力 国际范围 能力 服务 需求提供服务 全球茫围 控制全球性企业 可以 控制仝球性企业是 贸易 商业 全球范围 主要 管理业务 功能强大 指导贸易 商业挑哉 全球性企业 信息系统 管理业务 需要功能强大 分销商 响应 全球生企业要 信息系统 供应商通信 分销商 供应商通信 34以原子词为步长提词 上述模央将初始输入的电子文档处理为一组原子词串的有序集合.本模块提取这些原子词串的子串,输 出在文档中多次出现的子串,作为倏选词语.这些候选词语包括原子词、合成词以及部分不成词的汉字串 该模块算法的思想为∷:由构词率较高的原子词相邻共现所组成的词串在文档中出现的频率越高,越有可能成 词.算法步骤如下 1)对于集合中的每一个原子词串AW,执行2) 2)对于原子词串的每一个原子词,顺序执行3)、4). 3)切分得到以该原子词为首的AWS的所有子串 4)对于每一个子串,执行5 5)判断子串在语料中出现的次数是否超过N次(N为可设定参数),如果是,执行6):否则.执行7) 6)去除子串中的间隔符形成汉字串,作为候选词语保存并保存其出现频率 7)返回2)开始下一原子词 也即,对于AS=a1002-.2-.n- 表3结合词性标注与串频统计的词语提取方法结果 判断顺序为 序号 Te erm Frequency 1)a1 企业 2)a1-a 全球 全球性 2 1)a1-U2 全球性企业 i+1)a1-02-…a-1-出现次数小于N次 5 通信 2 系统 i+3)a2-ae3 信息 2 信息系统 9 范围 2 对例4中的原子词串集合使用该算法,得到的 候选词语如表3所示 耗时(秒) 0.15 35不成词删除 该模块自动删除提取结果中包含在不成词词典中的候选词语,即,删除自动提取结果中不成词的候选词 语,以提高自动提取的准确率. 110 系统工程理论与实践 第30卷 本文方法将人工挑出的不成词(如,“系统需求”,“模糊加权神经”等)加入到不成词词典中,防止以后计 算中再次将其列为候选词语而导致人工的重复劳动.这样一来,自动提取结果的准确率将随着不断丰富的不 成词词典而持续提高 36人工选取 自动提取的结果作为候选词语集合提供给人工审定,选取其中的一个子集合作为最终的词语提取结果 子集合之外的候选词语添加到不成词词典中,用于提高后续计算的准确率 4性能分析 表4长度优先切词方法结果 序号 Term frequency 为了说明本文方法的性能,本节采用实验结果将该方 458 全球性企业 法与当前具有代表性的提词方法作对比分析.后述实验中, 通信 各个方法均在同样的硬件和软件环境下进行测试 信息系统 222 实验一对于例1中的文本,采用文献⑤提出的长度 耗时(秒)0.03 优先的词语提取方法进行处理,得到的结果如表4所示 实验二采用文献]中的实验语料比较木文的方法与文献[5]提出的方法.该实验对两个领域的大语料 进行处理:信息领域的文本篇数482,字数90845;管理领域的文本篇数245,字数46325.表5是在停用词 相同的情况下两种方法的计算结果的比较 表5本文方法与长度优先切词方法的结果比较 语料及其处理方法 信息 管理 本文方法 长度优先切词 本文方法 长度优先切词 耗时(秒 93 自动提词数目 4728 4463 2281 2338 成词数目 4154 3545 1984 1940 准确率 0.88 0.79 0.87 0.83 对表4和表5的说明 1)表5中,“自动提词数目”行展示自动提取的汉字串的数目.为了明确地比较两种方法的效果,本文 方法”列出的是尚未经过不成词词典删除的结果,即,未将过往提词的人工积累结果记入.“成词数目”为白 动提取所得汉字串中经由人工选取确定为词语的数目 2)由表5可以看到:本文的提词方法表现出较高的准确率.原因在于:长度优先切词方法在切分获得汉 字串子串时未考虑词法,以致最终将部分不成词的子串误列入自动提词结果,如“系统工”,“识管理”等;本 文的方法则避免了这一问题 3)在这两个实验中,本文的提词方法同时也显示了较高的召回率 4)由于本文方法是一种综合了词性分析与统计的方法,所以,在处理相同文档时,该方法比传统的仅依 靠统计和仅依靠词性分析的方法速度慢. 另外.对一个215K的大语料,同时采用本文的方法以及对提词方法产生一定影响的文献7中的方法 作比较.结果表明,本文的方法在兼顾准确率和召回率方面表现优良,在新词提取方面的准确率和召回率尤 为突出 5结论 本文提出了一种自动提取电子文档中词语的新方法.该方法综合了词性分析与统计方法.首先将文档处 理为标准化文本,然后将文本切分为原子词并删除停用原子词,形成一组原」词串,对这些原子词串进行子 串提取和词频统计,得到电子文档中的词语.本文的方法在切分汉字串时,以原子词为步长,避免了因原子词 被切分导致的错误提取,如“系统工”,“识管理”等.并且,该方法在提取合成词时表现出较高的性能,对于很 少单独使用的合成词也能够提取得到,如“决策支持”等 实验结果证明,该方法能够在保证召回率的同时,满足准确率的要求,并且不受电子文档大小的影响.但 是,由于目前的切词和词性标注系统仅能够切分中文文本和标注中文词的词性,所以,本文的方法仅适用于 中文词语提取 第1期 于娟,等:结合词性分析与串频统计的词语提取方法 111 今后的研究重点有两方面,一为改进该方法使其能够适用于其它语种自然语言文档的词语提取.另外, 继续完善该方法使其时间复杂度降低. 参考文献 1 Yu Dang Y Z. Learning domain feature from text corpora[Cl// Management Track within WiCOM: Engineer- ing, Services and Knowledge Management, 2008: 12-17 2]杨梅.现代汉语合成词构词研究⑦D].南京师范大学,2006 Yang M. The construction of modern Chincse compound word D. Nanjing Normal University, 2006 3]王淑乍.意义组合原理及汉语屮的“词”处理J].宁夏大学学报:人文社会科学版,2007,29(3):1520 Wang S H Principlc of compositionality Chinesc word proccssingJ. Journal of Ningxia University: Humanitics Social Science Edition, 2007, 29(3): 15-20 [4]陈波.逻辑哲学原理M]北京:北京大学出版社,2000:27 Chen B. Philosophy of Logic[M]. Beijing: Peking University Press, 2000: 27 5]姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[情报学报,2006,25(1):74-79 Jiang Sh, DangY Z Segmentation algorithm for Chinese text based on length descending and string frequency statisticsJ. Journal of the China Society for Scientific and Technical Information, 2006, 25(1):74-79 l]姜韶华,党延忠,宦照国.无词典抽词的 RMMFS和 BMMFS方法及其比较硏究]·情报学报,206,·25(4):499-503 Jiang s Il, Dang Y Z. Xuan Z G. Comparative study on RMMFS and bmmfs of Chinese word extraction without using dictionary J. Journal of the China Society for Scientific and Technical Information, 2006, 25(4) 499-503 7 Chien L F. PAT-tree-based keyword extraction for Chinese information retrieval[C//Proceedings of the 20th An nual International ACM SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, Pennsylvania, United States, 1997: 27-31 68]付德宇,代成琴.一个面向文本分类的中文特征词白动抽取方法[J.计算机工程与应用,2006,15:165-16 Fu DY, DaiC Q. A method of Chinese lexical items'extraction for text categorizationJ. Computer Engineering and applications, 2006, 15: 165-167 9 Sui Z F, Chen Y R, Hu J F, et al. The research on the automatic term extraction in the domain of information science and technology[C// Proceedings of the 5th East Asia Forum of the Terminology, 2002 10]苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究J].语言文字应用,1998,(3):83-88 Yuan C F, Huang C N. Chinese word construction research based on morpheme database [J]. Applied Linguistics 1998,(3):83 [1]ICTCLAS.汉语词法分析系统[EB/OL].[2007-116].htp:/www.nlp.org.cn/project/project,php?proj_id=6 IcTclas.ChineselexicalanalysissystemEb/ol.2007-11-6.http://www.nlp.orgcn/project/project.php? proi_id=6 12]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[.中文信息学报,2002,(5):1-7. Zhang H P, liu Q. Model of Chinese words rough segment ation based on N-shortest-paths met hod JJ.Journa. of Chinese Information Processing, 2002, (5 :1-7 13 IRLAS.哈尔滨L业大学信息检索实验室[EB/OL].[207-11-6].htp:// r hit .edu. cn/ IrLas.IiiTIrLabEb/ol.2007-11-6.http://ir.hit.edu.cn/. [14刘群,张华平,张浩ICTCLAS2008汉语词性标注集Ebol.2008-11-4.http://ictclas.org/ictclas_docs_003.html Liu Q, Zhang II P, Zhang II. Chinese part-of-speech tag-set of ICTCLAS2008 EB/OL.2008-11-4. htt //ictclas. org/ictclas._003. html

-
2019-09-20
487KB
论文研究-藏文词性自动标注中歧义问题处理方法研究.pdf
2019-09-13藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究
322KB
论文研究-基于词性标注的特征定位方法 .pdf
2019-08-17基于词性标注的特征定位方法,张希远,李宏伟,特征与相关实现代码之间关系的逆向恢复被称为特征定位。现有特征定位技术主要依赖于分析动态执行情况或程序语法结构,无法充分利
1.1MB
论文研究-基于位置标签与词性结合的组合词抽取方法.pdf
2019-07-23现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对语料进行文本预处理、添加位置标签、加权词频过滤等建立词条的位置标签集;然后依
459KB
论文研究-基于粗分和词性标注的中文分词方法.pdf
2019-09-10中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的
497KB
论文研究-基于分词与词性标注的汉语逗号自动分类.pdf
2019-09-07近年来,标点符号作为篇章的重要部分逐渐引起研究者的关注。然而,针对汉语逗号的研究才刚刚展开,采用的方法也大多都是在句法分析的基础上,尚不存在利用汉语句子的表层信息开展逗号自动分类的研究。提出了一种基于
251KB
论文研究-基于新的关键词提取方法的快速文本分类系统.pdf
2019-07-22关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用T
953KB
论文研究-情感分类中基于词性嵌入的特征权重计算方法.pdf
2019-09-07在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对情感分类的贡献度嵌入到传统的TF-ID
995KB
论文研究-领域自适应的合成词词性标注研究.pdf
2019-07-22在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合
603KB
论文研究-基于HMM的柯尔克孜语词性标注的研究.pdf
2019-09-13柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地
690KB
论文研究-面向智能客服的句子相似度计算方法.pdf
2019-09-06针对金融领域中智能客服的句子相似度计算方法进行了研究。利用基于词性的分词纠正模型减少中文歧义词、金融相关词汇的分词错误;通过词向量方法和循环神经网络分别提取词语级和句子级的语义特征,并且得到句子向量;
1.5MB
论文研究-基于互自扩展模式的中文产品属性提取算法.pdf
2019-07-22针对中文在线评论中产品属性词的提取,提出了一种基于互自扩展模式的半监督学习方法。利用较少的人工参与,通过FP-Growth算法挖掘频繁项集获得种子属性词,通过增量迭代发现新的属性词;在每一轮迭代中,通
548KB
论文研究-基于N元模型的维吾尔语词性标注实验研究.pdf
2019-09-08词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分
926KB
论文研究-孤立点预处理和Single-Pass聚类结合的微博话题检测方法.pdf
2019-07-22针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通
781KB
论文研究-基于机器翻译的维吾尔语形态分析研究.pdf
2019-09-11针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练
266KB
论文研究-基于语义分析树核的多特征句子相似度计算 .pdf
2019-08-15基于语义分析树核的多特征句子相似度计算,王利局,黄德根,本文提出语义分析树核的多特征相似度计算方法,该方法分别从句法特征、单词语义特征和词特征三个方面来计算两个句子的相似度。句
1.1MB
论文研究-搜索引擎排序作弊的识别: 基于文本内容和链接结构的分析.pdf
2019-09-20论文研究-搜索引擎排序作弊的识别: 基于文本内容和链接结构的分析.pdf, 搜索引擎排序作弊通过提高网页与搜索请求的相关性, 达到提高搜索排名的目的. 为此, 根据作弊网页的特征, 引入作弊倾向系数
983KB
论文研究-基于OC-SVM的新情感词识别.pdf
2019-07-22当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法。提出一种基于OC-SVM的新情感词识别方法,通过种子词扩展方法获得词语集,并用旧词典、词频和停用词等对扩
1.5MB
论文研究-单词统计特性在情感词自动抽取和商品评论分类中的作用.pdf
2019-07-22单词的统计特征在自然语言处理中具有广泛应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。利用八种统计特征
775KB
论文研究-基于句法分析的汉语词义消歧.pdf
2019-07-22为了提高词义消歧的质量,对歧义词汇的上下文进行结构分析,提出了一种利用句法知识来指导消歧过程的方法。在歧义词汇上下文的句法树中,提取句法信息和词性信息作为消歧特征;同时,使用朴素贝叶斯模型作为消歧分类
983KB
论文研究-基于关键句分析的微博情感倾向性研究.pdf
2019-07-22针对微博的情感倾向分析,提出了一种基于关键句分析的微博情感倾向性分析方法SOAS(sentiment orientation analysis based on key sentence analy
529KB
论文研究-面向短语统计机器翻译的汉日联合分词研究.pdf
2019-09-12未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一
618KB
论文研究-一种基于海量语料的网络热点新词识别方法.pdf
2019-09-12基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出
1.15MB
论文研究-统计与规则相融合的领域术语抽取算法.pdf
2019-07-22针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性
1.15MB
论文研究-中英可比语料库中翻译等价对抽取方法研究.pdf
2019-09-12回顾了语料库分类及可比语料库中翻译等价对抽取方法研究的历史。根据从可比语料库中提取翻译等价对所依据的基本假设:一个语言中一个词在对应到另外一种语言时其与周围词之间的共现搭配关系仍然被保持,采用双向等价
1.4MB
论文研究-基于变系数词性空间权值定义的英文句子相似度算法研究.pdf
2019-07-22对短文本中词项按词性进行切分构建词性向量,将词性向量中词项进行归并构建词性空间,首次提出对词性空间的权值进行动态定义。词项在词性空间中映射权值通过词项词频信息和WordNet语义词典得到,短文本之间相
307KB
论文研究-中文合成词识别及分词修正.pdf
2019-07-22提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索
831KB
论文研究-依存关系语义角色标注研究.pdf
2019-09-11句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后
551KB
论文研究-XML文档语义检索方法研究.pdf
2019-09-07最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大
512KB
论文研究-基于最大熵的哈萨克语词性标注模型.pdf
2019-09-07为实现“标文通”(Uniform Office Format,UOF)文档格式到EPUB电子书格式的转换,重点分析了UOF格式和EPUB格式的结构以及两种结构之间的映射关系,并详细设计了转换式样单,提
1.36MB
论文研究-基于权值算法的中文情感分析系统研究与实现.pdf
2019-07-22为了能够更加准确地对语句结构进行划分、对语句表达的内容进行判断, 提出了一种全新的基于权值的计算算法, 在完善中文分词的基础上对语句进行情感分析。首先利用中文分词算法对句式结构进行分割, 然后依据词性
-
博客
caffe C++简单例子
caffe C++简单例子
-
下载
如何让您的培训效果更佳.ppt
如何让您的培训效果更佳.ppt
-
下载
FPGA控制DDR实现步骤与注意细节.7z
FPGA控制DDR实现步骤与注意细节.7z
-
学院
vue3从0到1-超详细
vue3从0到1-超详细
-
下载
激光等离子体的回旋辐射
激光等离子体的回旋辐射
-
下载
微信小程序轮播图代码
微信小程序轮播图代码
-
下载
深入分析JavaClassLoader原理
深入分析JavaClassLoader原理
-
下载
jdk8u281.zip
jdk8u281.zip
-
博客
汇编语言程序设计---1~4章习题答案(王爽第二版)
汇编语言程序设计---1~4章习题答案(王爽第二版)
-
博客
linux权限设置
linux权限设置
-
下载
xxl-job-2.2.0-pg集成nacos配置管理,可直接运行
xxl-job-2.2.0-pg集成nacos配置管理,可直接运行
-
学院
项目管理工具与方法
项目管理工具与方法
-
学院
RapidScada从入门到精通
RapidScada从入门到精通
-
下载
图书管理系统.zip
图书管理系统.zip
-
博客
linux环境编程
linux环境编程
-
学院
LVS + Keepalived 实现 MySQL 负载均衡与高可用
LVS + Keepalived 实现 MySQL 负载均衡与高可用
-
博客
特征工程入门与实践4
特征工程入门与实践4
-
博客
esp32 参考资料
esp32 参考资料
-
下载
小型壁稳氩弧紫外-真空紫外光源的研究
小型壁稳氩弧紫外-真空紫外光源的研究
-
学院
Docker从入门到精通
Docker从入门到精通
-
学院
物联网基础篇:快速玩转MQTT
物联网基础篇:快速玩转MQTT
-
下载
如何提升培训效果.ppt
如何提升培训效果.ppt
-
博客
如何移除激活锁?
如何移除激活锁?
-
学院
使用 Linux 平台充当 Router 路由器
使用 Linux 平台充当 Router 路由器
-
下载
2019巨量引擎效果营销白皮书.pdf
2019巨量引擎效果营销白皮书.pdf
-
博客
linux设置密码
linux设置密码
-
学院
MMM 集群部署实现 MySQL 高可用和读写分离
MMM 集群部署实现 MySQL 高可用和读写分离
-
博客
北邮oj-Single Number
北邮oj-Single Number
-
博客
Idea配置maven的新settings无效
Idea配置maven的新settings无效
-
下载
关于面向服务的计算的安全无线通信
关于面向服务的计算的安全无线通信