45个小众而实用的NLP开源工具.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

自然语言处理

161 浏览量 2023-10-18 17:25:52 上传评论收藏 766KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

45个小众而实用的NLP开源工具.rar （1个子文件）

45个小众而实用的NLP开源字典和工具.pdf 829KB

45个⼩众⽽实⽤的NLP开源字典和⼯具

原创

⼣⼩瑶

2⽉14⽇⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

⼀只⼩狐狸带你解锁NLP/ML/DL秘籍

前⾔

随着BERT、ERNIE、XLNet等预训练模型的流⾏，解决NLP问题时不⽤上预训练模型似乎总显得⾃⼰有点过时。但是这显然是不对

的。

众所周知，⽆论训练还是推理，预训练模型都会消耗⼤量的算⼒，且⾼度依赖GPU计算资源。然⽽，有很多的NLP问题实际上仅仅

靠字典+规则就可以做到够⽤，那么这时候强⾏上笨重的模型⽆异于⾼射炮打蚊⼦，性价⽐是⾮常低的。

于是⼩⼣就从⼀个⽐较疯狂的github repo⾥为⼤家精挑细选了45个⽐较实⽤的开源⼩⼯具和字典，让⼤家在搭建NLP系统、辅助炼

丹的过程中少⼀些模型和算⼒的依赖，多⼀些⼩⽽美的代码。

repo

地址：

https://github.com/fighting41love/funNLP

注：这是⼀个⾮常丧⼼病狂的repo，⾥⾯收录了300多个项⽬，但是⽐较⻥⻰混杂，要记得多多横向对⽐哦

来，感受⼀下m(_ _)m

⻤知道我是怎么把这300个repo看完⼀遍的

(╯°□°）╯︵ ┻━┻

1. textfilter: 中英⽂敏感词过滤

repo: observerss/textfilter

>>> f = DFAFilter()

>>> f.add("sexy")

>>> f.filter("hello sexy baby")

hello **** baby

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找（项⽬中的keyword⽂件），内容很不清真

2. langid：97种语⾔检测

repo: saffsd/langid.py

pip install langid

>>> import langid>>> langid.classify("This is a test")

('en', -54.41310358047485)

3. langdetect：另⼀个语⾔检测

地址：https://code.google.com/archive/p/language-detection

pip install langdetect

from langdetect import detectfrom langdetect import detect_langs

s1 = "本篇博客主要介绍两款语⾔探测⼯具，⽤于区分⽂本到底是什么语⾔，"s2 = 'We are pleased to introduce today a new technology'p

rint(detect(s1))

print(detect(s2))

print(detect_langs(s3)) # detect_langs()输出探测出的所有语⾔类型及其所占的⽐例

输出结果如下：注：语⾔类型主要参考的是ISO 639-1语⾔编码标准，详⻅ISO 639-1百度百科

跟上⼀个语⾔检测⽐较，准确率低，效率⾼。

4. phone 中国⼿机归属地查询：

repo: ls0f/phone

已集成到 python package cocoNLP中

from phone import Phone

p = Phone()

p.find(18100065143)#return {'phone': '18100065143', 'province': '上海', 'city': '上海', 'zip_code': '200000', 'area_code': '021', 'phone_type':

'电信'}

⽀持号段: 13,15,18*,14[5,7],17[0,6,7,8]

记录条数: 360569 (updated:2017年4⽉)

作者提供了数据phone.dat ⽅便⾮python⽤⼾Load数据。

5. phone国际⼿机、电话归属地查询：

repo: AfterShip/phone

npm install phone

import phone from 'phone';

phone('+852 6569-8900'); // return ['+85265698900', 'HKG']

phone('(817) 569-8900'); // return ['+18175698900, 'USA']

6. ngender 根据名字判断性别：

repo: observerss/ngender

基于朴素⻉叶斯计算的概率

pip install ngender

>>> import ngender>>> ngender.guess('赵本⼭')

('male', 0.9836229687547046)>>> ngender.guess('宋丹丹')

('female', 0.9759486128949907)

7. 抽取email的正则表达式

已集成到 python package cocoNLP中

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'emails = re.findall(email_pattern, t

ext, flags=0)

8. 抽取phone_number的正则表达式

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip