[TOC]
# NLP
## 1. NLP基本任务概述
### 1.1 句法分析(Lexical Analysis)
句法分析是对自然语言**词汇层面**的分析,是NLP中最基础的工作,主要包括如下
- **分词(Word Segmentation/Tokenization)**
对没有明显边界的文本进行切分,得到词序列
- 新词发现(New Words Identification)
找出文本中具有新形势、新意义或是新用法的词
- 形态分析(Morphological Analysis)
分析单词的形态组成,包括词干(Sterms)、词根(Roots)、词缀(Prefixes and Suffixes)等
- 词性标注(Part-of-speech Tagging)
确定文本中每个词的词性。词性包括动词(Verb)、名词(Noun)、代词(pronoun)等
- 拼写校正(Spelling Correction)
找出拼写错误的词并进行纠正
### 1.2 句子分析(Sentence Analysis)
对自然语言进行句子层面的分析,包括句法分析和其他句子级别的分析任务
- 组块分析(Chunking)
标出句子中的短语块,例如名词短语(NP),动词短语(VP)等
- 超级标签标注(Super Tagging)
给每个句子中的每个词标注上超级标签,超级标签是句法树中与该词相关的树形结构
- 成分句法分析(Constituency Parsing)
分析句子的成分,给出一棵树由终结符和非终结符构成的句法树
- 依存句法分析(Dependency Parsing)
分析句子中词与词之间的依存关系,给一棵由词语依存关系构成的依存句法树
- **语言模型(Language Modeling)**
对给定的一个句子进行打分,该分数代表句子合理性(流畅度)的程度
- 语种识别(Language Identification)
给定一段文本,确定该文本属于哪个语种
- 句子边界检测(Sentence Boundary Detection)
给没有明显句子边界的文本加边界
### 1.3 语义分析(Semantic Analysis)
对给定文本进行分析和理解,形成能够表达语义的形式化表示或分布式表示
- 词义消歧(Word Sense Disambiguation)
对有歧义的词,确定其准确的词义
- 语义角色标注(Semantic Role Labeling)
标注句子中的语义角色类标,语义角色,语义角色包括施事、受事、影响等
- 抽象语义表示分析(Abstract Meaning Representation Parsing)
AMR是一种抽象语义表示形式,AMR parser把句子解析成AMR结构
- 一阶谓词逻辑演算(First Order Predicate Calculus)
使用一阶谓词逻辑系统表达语义
- 框架语义分析(Frame Semantic Parsing)
根据框架语义学的观点,对句子进行语义分析
- **词汇/句子/段落的向量化表示(Word/Sentence/Paragraph Vector)**
研究词汇、句子、段落的向量化方法,向量的性质和应用
### 1.4 信息抽取(Information Extraction)
从无结构文本中抽取结构化的信息
- **命名实体识别(Named Entity Recognition)**
从文本中识别出命名实体,实体一般包括人名、地名、机构名、时间、日期、货币、百分比等
- 实体消歧(Entity Disambiguation)
确定实体指代的现实世界中的对象
- 术语抽取(Terminology/Giossary Extraction)
从文本中确定术语
- 共指消解(Coreference Resolution)
确定不同实体的等价描述,包括代词消解和名词消解
- 关系抽取(Relationship Extraction)
确定文本中两个实体之间的关系类型
- 事件抽取(Event Extraction)
从无结构的文本中抽取结构化事件
- **情感分析(Sentiment Analysis)**
对文本的主观性情绪进行提取
- **意图识别(Intent Detection)**
对话系统中的一个重要模块,对用户给定的对话内容进行分析,识别用户意图
- 槽位填充(Slot Filling)
对话系统中的一个重要模块,从对话内容中分析出于用户意图相关的有效信息
### 1.5 顶层任务(High-level Tasks)
直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术
- 机器翻译(Machine Translation):通过计算机自动化的把一种语言翻译成另外一种语言
- 文本摘要(Text summarization/Simplication):对较长文本进行内容梗概的提取
- 问答系统(Question-Answering Systerm):针对用户提出的问题,系统给出相应的答案
- 对话系统(Dialogue Systerm):能够与用户进行聊天对话,从对话中捕获用户的意图,并分析执行
- 阅读理解(Reading Comprehension):机器阅读完一篇文章后,给定一些文章相关问题,机器能够回答
- 自动文章分级(Automatic Essay Grading):给定一篇文章,对文章的质量进行打分或分级
- 文本分类(Text Classification):对于文本预测相应的类别
- 知识图谱(Knowledge Graph):知识点互相连接而成的语义网络
### 1.6 NLP任务概括
最后简单概括(上面整体说的任务感觉有点多且有点繁琐),通常而言,绝大部分NLP问题可以归入四类任务中,分别是**序列标注**、**分类任务**、**句子关系判断**和**生成式任务**。
- 序列标注(sequence labeling)
这是最典型的NLP任务,比如中文分词,词性标注,命名实体识别,语义角色标注等都可以归入这一类问题,它的特点是句子中每个单词要求模型根据上下文都要给出一个分类类别。
这部分任务的特点是:输入为一段文本,输出为一段文本,输入和输出等长(N-N)。
- 分类任务(text classification)
比如我们常见的文本分类,情感计算,层次分类,多标签分类等都可以归入这一类。
这部分任务的特点是:输入一段文本,输出为预测的类别(N-1)。
- 句子关系判断
比如句子相似性判断,阅读理解,语言推理任务(判断两个句子是否具有某种蕴含关系标签)等。
这部分任务的特点是:输入为多段文本,输出的为一段文本或者标签(n-N-M or 1)。
- 生成式任务(text generation)
比如机器翻译,文本摘要,写诗造句,看图说话等都属于这一类。它的特点是输入文本内容后,需要自主生成另外一段文字。
这部分任务的特点是:输入为一段文本,输出为一段文本(N-M)。
上面所总结的这四大类任务基本可以涵盖NLP领域的具体任务。基于这部分任务我们可以再分两个角度进行划分和交叉。
- 细分维度
细分维度是指对某个任务会有很多不同任务,以分类为例,它可以分为二分类、多分类、多标签分类、层次化分类等。
以阅读理解任务为例,他可以分为抽取式、完形填空式、多项选择式和生成式。
- 交叉维度
交叉维度是指在某些业务场景下,会使用多个不同NLP任务,比如问答系统,它可能会用到分类任务、序列标注任务
生成式任务以及阅读理解任务等等。可以理解为灵活使用不同类型的NLP任务来解决业务问题。
### 1.7 **学习方向**
可以将整体划分为**五部分**,第一部分为基础的NLP算法,第二部分为NLP具体的任务,第三部分为数据的强化,第四部分则为具体案例应用,第五部分为NLP的Q&A。
- 第一部分 **NLP基础算法**
这部分为NLP的最基础部分,常见的NLP算法,也就是下面介绍的各个相关的模型以及目前新出的模型。
这部分需要**学习**相关的算法,**总结**算法,**了解**算法。
- 学习算法
对于之前已经学习和总结过的算法,要不断的回顾和复习。
对于和自己业务相关的算法,要学习paper,学习其他人的总结。
对于其他相关的算法,可以不用细致学习,但是明白算法的原理,能够用自己话术表达。
> 大致�
没有合适的资源?快使用搜索试试~ 我知道了~
该项目主要是自学过程中对于一些知识点的整理,项目整体分为四部分,分别是算法、工程、工具和数学知识+源代码+文档说明
共259个文件
png:90个
jpg:73个
md:44个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 188 浏览量
2024-04-01
14:26:25
上传
评论
收藏 36.31MB ZIP 举报
温馨提示
- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
该项目主要是自学过程中对于一些知识点的整理,项目整体分为四部分,分别是算法、工程、工具和数学知识+源代码+文档说明 (259个子文件)
算法等高线可视化.gif 893KB
算法鞍点可视化.gif 714KB
arbitrary_padding_no_strides.gif 466KB
卷积示意图.gif 466KB
full_padding_no_strides.gif 425KB
same_padding_no_strides.gif 270KB
padding_strides_odd.gif 119KB
padding_strides.gif 116KB
no_padding_strides.gif 44KB
no_padding_no_strides.gif 37KB
.gitignore 267B
.gitkeep 0B
.gitkeep 0B
.gitkeep 0B
seborn_tutorials.ipynb 3.32MB
matplotlib_tutorial.ipynb 504KB
Regularization.ipynb 353KB
Gradient Descent.ipynb 181KB
python_tips.ipynb 179KB
CoordinateDescent.ipynb 131KB
programming.ipynb 18KB
ASR.ipynb 9KB
ConvexFunctionTheory.ipynb 4KB
nesterov动量示意图.jpeg 1.44MB
标准动量示意图.jpeg 1.1MB
gmm-hmm.jpeg 219KB
gmm_prob1.jpeg 129KB
gmm_prob.jpeg 129KB
ernie_30_structure.jpeg 83KB
ernie_10_mask.jpeg 46KB
ernie_30_kg.jpeg 36KB
elue.jpeg 13KB
gmm.jpeg 12KB
bert_use2.jpg 851KB
bert_input_embedding.jpg 324KB
xlnet_two_stream.jpg 263KB
elmo_use.jpg 138KB
transformer.jpg 122KB
transformer_decoder.jpg 108KB
bert.jpg 107KB
transformer_encoder.jpg 95KB
elmo.jpg 78KB
spark_wordcount.jpg 70KB
transformer_encoder_decoder.jpg 65KB
spark_feature.jpg 61KB
dnn-hmm_gmm-hmm_compare.jpg 60KB
spark_rdd.jpg 55KB
spark_exec_plan.jpg 55KB
mr_spark.jpg 53KB
ner_task_dl.jpg 51KB
spark_support.jpg 50KB
gpt2_first_stage.jpg 48KB
position_encoding.jpg 47KB
dnn-hmm.jpg 46KB
transformer_output.jpg 45KB
spark_app.jpg 42KB
xlnet_permutation.jpg 42KB
scale_pos_production_fifth.jpg 41KB
multi_head_attention.jpg 40KB
spark_kj.jpg 40KB
yarn.jpg 40KB
spark_exec_feature.jpg 40KB
gpt_use2.jpg 38KB
MT_DNN.jpg 37KB
spark_job.jpg 36KB
multi_head_attention_2.jpg 36KB
attention_compute.jpg 36KB
scale_pos_production_third_forth.jpg 35KB
ner_task.jpg 34KB
rdd_rely.jpg 34KB
gpt_use1.jpg 34KB
word2vec_cbow.jpg 31KB
scale_dot_production.jpg 30KB
transformer_simply.jpg 29KB
scale_dot_production_first_step.jpg 28KB
word2vec_skip_gram.jpg 27KB
hdfs.jpg 27KB
seq2seq.jpg 27KB
fasttext.jpg 27KB
word2vec_hs.jpg 26KB
scale_pos_production_1.jpg 25KB
map_reduce.jpg 25KB
multi_head_attention_1.jpg 25KB
scale_dot_production_second_step的副本.jpg 23KB
scale_dot_production_second_step.jpg 23KB
grad_newton.jpg 23KB
activation_swish.jpg 21KB
encoder_decoder_with_rnn_attention.jpg 21KB
hadoop_shuffle.jpg 21KB
recur.jpg 20KB
attention.jpg 19KB
nlp_example.jpg 17KB
encoder_decoder_no_attention.jpg 17KB
encoder_decoder_with_attention.jpg 17KB
attention_sim.jpg 16KB
scale_pos_production_2.jpg 16KB
tanh-tanh-prime.jpg 15KB
qa_cnn_rnn.jpg 13KB
tree.jpg 13KB
sigma-sigma-prime.jpg 13KB
共 259 条
- 1
- 2
- 3
资源评论
机器学习的喵
- 粉丝: 505
- 资源: 1269
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WWY123456789
- Python爬虫示例之distribute-crawler-master.zip
- Python爬虫示例之CnkiSpider-master.zip
- Python爬虫示例之bilibili-user-master.zip
- 某些TP-LINK路由器登录密码加密方式研究,找所有密码集合
- Python爬虫示例之BaiduyunSpider-master.zip
- 国网青海省电力公司-基于泛在电力物联网全过程基建管理“智慧工地”建设成果汇报(201910)(PPT格式).rar
- python爬虫示例之baidu-music-spider-master.zip
- 基于SpringBoot+MySQL+SSM+Vue.js的鲜花销售系统
- Python爬虫示例之163spider-master.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功