NLP
LEC5词法分析
统计语模型 N元法模型
1gram 独于历史
2gram 1阶尔可夫链
3gram 2阶尔可夫链
应
节转换问题
汉语分词问题 问题
数据稀疏引起0概率的问题
解决 数据平滑
加1法
减值法
神经络
固定窗的神经语模型
循环神经络
循环神经络主要于处(变
)序数据
语模型的评估 计算困惑度
LEC4中词法分析
词语
内部粘合度
外部环境替换度
本身频度
本分词中的歧义
交集型歧义
看|重
看重|
组合型歧义
混合型歧义
链
交集型歧义字段中含有交集字段的
个数
分词法 基于字典的分词法
最匹配法 问题
存在分词错误
法发现分词歧义
正向最匹配和逆向最匹配结果
同意味着存在分词歧义
最径法 词数最少的径最优
半词罚分法 半词法
半词:如果个字单独作为词使
就是半词
最概率法 最概率分词
能解决所有的交集型歧义
LEC3
词性
将词按照相似的语法结构为和典
型的语义类型聚成同的类
分类
开放类
封闭类
词法
构词的过程
主要类别
变形
派
复合
短语结构表示 树
法分析
法分析是指给出个特殊的词语
序,重构其短语结构树的过程
构建的颗短语结构树称为
个分析
个特定的词语序可以给出多个
同的短语结构树,个通常
能找到上百个分析的这种现象称为
短语结构歧义/法结构歧义
附着歧义
发在可以被两个同结点成的
短语中
The children ate cake with a
spoon
指代消解
发在涉及到同个或物的多个
名词短语之间,是种语现象
法语义语之间的关系
汉字编码的输输出
LEC1
主要研究内容
机翻译
信息检索
计算机系统从档中找到
符合户需要的相关信息
动摘 将原档的主要内容提取出来
观点挖掘
问答系统
通过计算机系统对提出的问题的
解,动推的段,在有
关知识资源中动求解答案并作出
相应的回答。
信息抽取
从指定档中或者本中抽取
出户感兴趣的信息
档分类
对的档按照定的分类标准
实现动归档
字编辑和动校对
对字拼写、词、甚语法动
检查、校对和排版
问题
形态学 单词的识别/汉语的分词
法问题
研究结构成分之间的相互关系
和组成序的规则
语义问题
研究如何从个语中推导出词的
意义,以及这些词在语法结构
中的作来推导出该语的意义。
语学
研究在同下上中语的应,
以及上下对语解所产的影
响
困难
的歧义
词法歧义 欢迎新师前来吃饭
词性歧义 Time flies like an arrow
结构歧义 喜欢乡下的孩
语义歧义
同的词在同的中的意义
样
的未知语现象
新词
新含义
LEC2数学基础
信息检索
动问答
对话系统
数学应实 词汇歧义消解
如何区分同上下中的词汇语义
解决思:将多义词的上下区别
开,其词义然就明确
基于上下分类的消歧法 基于叶斯分类
LEC6法分析
法分析是然语处中的基础
性作,它分析的法结构
(主谓宾结构)和词汇间的依存关
系
短语结构分析
上下关法
线图分析法
概率上下关法
对于可能产多种语法分析结果的
问题,给每棵树计算个概率
依存法分析
与短语结构的关系
LEC7问答与对话
问答发展历程
答案从知识库中检索得到或者在知
识库上推得到
信息检索以及浅层然语处
技术从规模本库或者中
抽取出答案
社区问答系统提问由其他户回答
问答式检索法
信息检索+信息抽取
从问中提取关键词语,信息检
索的法找出包含候选答案的段落
或,然后基于问答类型信息
抽取的法在这些段落和中找
出答案
信息检索+模式匹配
信息检索+然语处技术
基于统计翻译模型的问答技术
较
社区问答系统
主要任务
问题分类
将户提问动分到社区问答系统
对应的类别体系中
难点
类别多且均衡
包含的信息少,提问短
问题
准确率很低
数据稀疏
相似问题检索
问题检索指基于规模户产的
问答数据集提供的信息检索服务,
即从数据集中找出与户提问相似
的问题,这些相似问题的答案可以
作为户提问问题的答案候选
挑战
问题般较短包含的信息少,词
汇鸿沟很严重
基于图结构的专家户发现
阅读解式问答系统
机阅读解的法
传统特征程的法
基于神经络的法
章表示
问表示
其中,正向RNN的尾部单词隐层节
点(图中绿节点)正向融合
整个语义信息;相对的,反向
RNN的尾部单词(局词) 隐层
节点(图中橙节点)则逆向融合
整个的语义信息。
章与问题的匹配
维匹配
维匹配
插对抗负样本
原本模型能够得到正确答案。在
档后插和包含答案的线索
形式上相似的负样本(图
中蓝部分)。结果,模型受到
扰,得出错误答案。
对话系统
对话管法
有限状态机
存在问题
基于框架的对话管
基于机学习的对话管系统
聊天机
评论0