"自然语音处理基础" 自然语言处理(Natural Language Processing,NLP)是计算机科学领域中研究如何使计算机理解、解释和生成人类语言的技术。下面将对自然语言处理基础知识点进行总结概括: NLP发展历史 * 1950年代,图灵测试的提出标志着NLP的诞生 * 1954年,乔治敦大学建立俄->英翻译系统 * 1957年,乔姆斯基提出普遍文法、有限状态描述语言 * 1960年代,Backus和Naur引入BNF,描述形式化语言 * 1966年,美国科学院ALPAC委员会公布《语言与机器》,机器翻译和NLP陷入低谷 * 1970年代,知识图谱、ATN,出现了很多聊天机器人 * 1980年代,NLP规则方法走向统计方法,HMM、ngram等 * 1990年代,IBM统计机器翻译、基于语料统计NLP占据主流 * 2000年代,互联网、信息检索、机器翻译、问答系统… * 2010年代,深度学习NLP NLP基础方法 * 基于人工规则的方法:来源于乔姆斯基的形式语音理论,ABNF、ATN * 基于统计和机器学习方法:训练语料、统计模型、HMM、GMM、CRF、n-Gram等 NLP应用 * 机器翻译 * 信息检索 * 问答系统 * 语言模型/图谱 * 主题分析、摘要 * 页面质量分析 * 聚类/分类 * 特征提取 * 语法分析 * 句义分析 * 意图分析 * 结构分析 * 成分分析 * 组块分析 * T重要性变换 * 同义词 * 语义规整 * 纠错 * 字串分类 * 按需分类 * 话题检测 * 颗粒度 * 分词 * 未登录词 * 词内成分属性标注 * 专有名词 * 词性标注 * 音素标注 * 关系分析 * 词语搭配 * 词相似度 * 语言模型/图谱 形式语言和自动机 * 语言:定义为按照一定规律构成的句子和符号串的有限或无限集合 * 自然语言:是指一种自然地随着文化演化的语言,例如汉语、英语 * 人造语言:程序设计语言、世界语 * 语言描述方式:穷举法、文法描述、自动机描述 * 形式语言:用来精确描述语言机器结构的手法,也称之为代数语言学 * 形式语法(乔姆斯基语法):四元组G=(N,∑,P,S) * 上下文无关文法、上下文有关文法、无约束文法、规则文法 有限状态机 * 确定化有限状态机:五元组,M是输入符号的有穷集合,Q是状态的有限集合 * 有限状态机举例:#ABNF 1.0 UTF-8;root task_fin
剩余63页未读,继续阅读
- 粉丝: 12
- 资源: 9
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助