# 基于UNER-W2NER 的命名实体识别
#### NER任务
命名实体识别(NER)是自然语言处理(Natural Language Processing,NLP)领域的一项基本的任务,
长久以来一直得到学术界和产业界的广泛研究和关注,其在很多应用中已经成为不可或缺的步骤。
NER任务分解通常包括两部分,分别是实体的边界识别和实体类型的确定(通用的实体类型包括人名、地名、机构名、时间或其他),
因此如何提升实体的边界识别和实体类型的识别效果是NER任务研究的关键问题。
目前学术研究主要将NER任务主要分为3类,包括
扁平化NER(Flat NER),指的是从输入文本中抽取连续的实体片段和其所对应的实体类型;
嵌套NER(Nested/Overlapped NER),指的得是从文本中抽取的两个或多个实体,其文本片段之间存在一部分的文字重叠;
非连续NER(Discontinuous NER),指的是从文本中所抽取的实体间存在多个片段,且片段之间不相连,存在其他文本间隔。
#### NER方法
1.传统NER方法
基于序列标注的方法是 Flat NER的基准模型,主要对实体的每一个token分配标签进行标注,标注方式如BIO、BIEOS等。
目前比较主流的方法是将CRF模型与神经网络模型进行结合,最后通过CRF层进行预测结果的全局优化。
缺点:传统NER方法将NER作为序列标注问题,只能在单个的序列scan的文本中识别没有重叠的实体,但是不能识别嵌套的实体和非连续实体,
主要原因是很难为所有的NER任务设计一个通用的标注方案。
2.基于span的方法
基于SPAN的方法主要思想是列举所有可能的span,并确定它们是否是有效的实体和类型。
方法主要使用包括指针网络或者token对的形式聚焦于实体边界的识别,具体实现如分别设置start指针和end指针,表示实体的开始和结束位置信息。
缺点:实体长度太长,导致模型复杂度较高,无法处理非连续实体。
3.UNER-W2NER方法
基于多头选择和词词关系分类的NER统一模型,可以处理扁平、嵌套、非连续实体。
技巧: 1. 两个三对角添加新特征向量 2. 两个三对角不可能标签给logits添加负无穷项
模型 技巧 F1
w2ner 1+2 0.8345972152955857, 0.909730508808881, 0.9270400580033572, 0.9278426372943335, 0.9405841515796501, 0.9420771026676876, 0.9476399494322042, 0.9481659513950648, 0.949125452522845, 0.9510311523139543
w2ners 2 0.8477401687809022, 0.9086667349105019, 0.9249368085843643, 0.9374889312146751, 0.9374819782976721, 0.9387175353341446, 0.9389445056230484, 0.9454867428804198, 0.9451098394610042, 0.9469598326141472
w2nerss 无 0.4817587540748713, 0.51839437152088, 0.5982731465809729, 0.5662937057292587, 0.6011329169726423, 0.6144854871537585, 0.580637415585378, 0.6130476989508536, 0.622237459466798, 0.6157633045757132
w2nersss 1 0.83033693591679, 0.9154263257421887, 0.9323959412318034, 0.9279299700589223, 0.9186982399522794, 0.9434084001360408, 0.9337641677919595, 0.9466036109054311, 0.9486036678331584, 0.9511612414311411
结论:两个技巧至少使用一个。
没有合适的资源?快使用搜索试试~ 我知道了~
基于UNER-W2NER 的命名实体识别+python项目源码+文档说明
共21个文件
py:11个
xml:6个
pyc:2个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 137 浏览量
2024-11-17
17:21:01
上传
评论
收藏 64KB ZIP 举报
温馨提示
<项目介绍> - 命名实体识别(NER)是自然语言处理(Natural Language Processing,NLP)领域的一项基本的任务, 长久以来一直得到学术界和产业界的广泛研究和关注,其在很多应用中已经成为不可或缺的步骤。 NER任务分解通常包括两部分,分别是实体的边界识别和实体类型的确定(通用的实体类型包括人名、地名、机构名、时间或其他), 因此如何提升实体的边界识别和实体类型的识别效果是NER任务研究的关键问题。 - 不懂运行,下载完可以私聊问,可远程教学 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
基于多头选择和词-词关系分类的NER统一框架.zip (21个子文件)
W2NER-master
w2nerc.py 24KB
data
OtherUtils.py 683B
__pycache__
OtherUtils.cpython-37.pyc 750B
data_process.py 2KB
w2ner.py 24KB
w2neraccum2.py 26KB
w2nerss.py 23KB
w2nersss.py 24KB
.idea
other.xml 186B
vcs.xml 180B
misc.xml 301B
inspectionProfiles
Project_Default.xml 1KB
profiles_settings.xml 174B
modules.xml 262B
W2NER.iml 372B
OptimUtils.py 4KB
w2nersssc.py 24KB
__pycache__
OptimUtils.cpython-37.pyc 4KB
w2neraccum.py 24KB
README.md 3KB
w2ners.py 23KB
共 21 条
- 1
资源评论
程序员无锋
- 粉丝: 3675
- 资源: 1934
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Nginx配置文件中FastCGI相关参数理解
- 【java毕业设计】仿小鹅通知识付费微网站源码(ssm+mysql+说明文档).zip
- MySQL数据库初学者入门指南-安装、创建、优化及安全措施详解
- 【java毕业设计】房屋租赁系统源码(ssm+mysql+说明文档+LW).zip
- 【java毕业设计】房屋出租系统源码(ssm+mysql+说明文档+LW).zip
- 简阅免费小说_3.24.022118.apk
- 【java毕业设计】二手商品交易系统源码(ssm+mysql+说明文档+LW).zip
- RHCE前四章实验过程结果
- 设计模式,三个大类展示,23个小类展示,以图的方式
- 【java毕业设计】电气与信息类书籍网上书店源码(ssm+mysql+说明文档+LW).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功