Python 资源之文本处理
解析及操作文本的库
通用
difflib - 差异化计算工具(Python 标准库)
Levenshtein - 快速计算编辑距离及字符串相似度
fuzzywuzzy - 模糊字符串比匹配
esmre - 正则表达式加速器.
ftfy - 将 Unicode 文本自动整理减少碎片化
转换
unidecode - Unicode 转化为 ASCII 文本
字符编码
uniout - 将转移字符串输出为可读形式
chardet - Python 2/3 兼容字符编码检测器
xpinyin - 讲汉字转为拼音的库
pangu.py - CJK 及字母数字文本间距格式化
Slug 化
awesome-slugify - 可保留 Unicode 的 Python slugify 库
python-slugify - 讲 Unicode 转为 ASCII 的 Python slugify 库
unicode-slugify - unicode slugs 生成工具
pytils - 处理俄语字符串的小工具(包含 pytils.translit.slugify)
通用解析器
PLY - Python lex 和 yacc 解析工具
pyparsing - 用于生成解析器的通用框架
人名
python-nameparser - 姓名解析组件
电话号码
phonenumbers - 处理、格式化、存储、验证全球电话号码
用户代理字符串
python-user-agents - 浏览器用户代理解析器
HTTP Agent Parser - Python HTTP 代理解析器
fake-useragent - 基于全球浏览器统计的 Python 用户代理欺骗器
user_agent - 用户代理数据生成器