Python-敏感词过滤的几种实现某1w词敏感词库

共3个文件

py：1个

keywords：1个

readme：1个

5星 · 超过95%的资源需积分: 40 46 浏览量 2019-08-10 06:44:14 上传评论 11 收藏 115KB ZIP 举报

在IT行业中，尤其是在文本处理和自然语言处理领域，敏感词过滤是一项重要的任务。它涉及到对文本数据进行审查，以防止不适当、违法或敏感的信息传播。在这个案例中，我们关注的是一个名为"Python-敏感词过滤的几种实现某1w词敏感词库"的项目，该项目提供了一种使用Python来过滤10,000个敏感词的方法。以下是关于这个主题的详细讨论： 1. **敏感词库**：敏感词库是预先定义的一系列词汇，通常包含政治、宗教、色情、暴力等领域的词汇。在这个项目中，敏感词库包含了10,000个敏感词，这样的规模足以覆盖大部分常见的敏感词汇。 2. **Python编程语言**：Python是一种流行的编程语言，特别适合数据处理和文本分析。它的语法简洁明了，且拥有丰富的第三方库，如`re`（正则表达式）、`jieba`（中文分词）和`nltk`（自然语言工具包），这些都可以用来实现敏感词过滤。 3. **正则表达式**：在Python中，`re`库可以用于创建复杂的字符串匹配模式。通过构建正则表达式，我们可以检查文本中是否存在敏感词。例如，使用`re.findall()`函数可以找出所有匹配敏感词的子串。 4. **动态匹配算法**：对于大规模的敏感词库，简单的逐词匹配可能会效率低下。一种优化方法是使用Aho-Corasick算法，它可以一次性处理所有敏感词，避免了多次遍历文本。 5. **前缀树（Trie）数据结构**：Trie树是一种高效的数据结构，常用于字符串查找。将敏感词库构建为Trie树后，查找敏感词的速度会显著提高，特别是在大量文本中。 6. **模糊匹配**：除了精确匹配，还可以实现模糊匹配，允许部分匹配或者同义词匹配。这可能需要使用到如Jieba分词库，先对文本进行分词，然后检查分词后的词是否与敏感词库中的词匹配。 7. **关键词替换**：一旦找到敏感词，可以选择删除或替换它们。例如，可以用星号(*)代替敏感字符，以达到模糊显示的效果。 8. **多线程/异步处理**：对于大量文本，可以利用Python的多线程或异步I/O功能，如`concurrent.futures`或`asyncio`库，来并行处理敏感词过滤，提高整体处理速度。 9. **性能优化**：在处理大量数据时，优化内存使用和计算效率是关键。可能的优化策略包括使用生成器（generator）减少内存占用，或者使用Cython或PyPy等加速Python执行。 10. **应用范围**：敏感词过滤广泛应用于社交媒体监控、网站评论审核、聊天机器人、在线教育平台等多个领域，以确保内容的合规性和安全性。 Python-敏感词过滤的几种实现某1w词敏感词库项目提供了一个全面的解决方案，涵盖了从敏感词库的管理到高效过滤策略的实施。通过学习和理解这些技术，开发者可以有效地在各种文本处理场景中实施敏感词过滤。

资源推荐

资源详情

资源评论

收起资源包目录

Python-敏感词过滤的几种实现某1w词敏感词库.zip （3个子文件）

textfilter-master

keywords 249KB

filter.py 5KB

README 188B

#!/usr/bin/env python # -*- coding:utf-8 -*- from collections import defaultdict import re __all__ = ['NaiveFilter', 'BSFilter', 'DFAFilter'] __author__ = 'observer' __date__ = '2012.01.05' class NaiveFilter(): '''Filter Messages from keywords very simple filter implementation >>> f = NaiveFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby ''' def __init__(self): self.keywords = set([]) def parse(self, path): for keyword in open(path): self.keywords.add(keyword.strip().decode('utf-8').lower()) def filter(self, message, repl="*"): message = unicode(message).lower() for kw in self.keywords: message = message.replace(kw, repl) return message class BSFilter: '''Filter Messages from keywords Use Back Sorted Mapping to reduce replacement times >>> f = BSFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby ''' def __init__(self): self.keywords = [] self.kwsets = set([]) self.bsdict = defaultdict(set) self.pat_en = re.compile(r'^[0-9a-zA-Z]+$') # english phrase or not def add(self, keyword): if not isinstance(keyword, unicode): keyword = keyword.decode('utf-8') keyword = keyword.lower() if keyword not in self.kwsets: self.keywords.append(keyword) self.kwsets.add(keyword) index = len(self.keywords) - 1 for word in keyword.split(): if self.pat_en.search(word): self.bsdict[word].add(index) else: for char in word: self.bsdict[char].add(index) def parse(self, path): with open(path, "r") as f: for keyword in f: self.add(keyword.strip()) def filter(self, message, repl="*"): if not isinstance(message, unicode): message = message.decode('utf-8') message = message.lower() for word in message.split(): if self.pat_en.search(word): for index in self.bsdict[word]: message = message.replace(self.keywords[index], repl) else: for char in word: for index in self.bsdict[char]: message = message.replace(self.keywords[index], repl) return message class DFAFilter(): '''Filter Messages from keywords Use DFA to keep algorithm perform constantly >>> f = DFAFilter() >>> f.add("sexy") >>> f.filter("hello sexy baby") hello **** baby ''' def __init__(self): self.keyword_chains = {} self.delimit = '\x00' def add(self, keyword): if not isinstance(keyword, unicode): keyword = keyword.decode('utf-8') keyword = keyword.lower() chars = keyword.strip() if not chars: return level = self.keyword_chains for i in range(len(chars)): if chars[i] in level: level = level[chars[i]] else: if not isinstance(level, dict): break for j in range(i, len(chars)): level[chars[j]] = {} last_level, last_char = level, chars[j] level = level[chars[j]] last_level[last_char] = {self.delimit: 0} break if i == len(chars) - 1: level[self.delimit] = 0 def parse(self, path): with open(path) as f: for keyword in f: self.add(keyword.strip()) def filter(self, message, repl="*"): if not isinstance(message, unicode): message = message.decode('utf-8') message = message.lower() ret = [] start = 0 while start < len(message): level = self.keyword_chains step_ins = 0 for char in message[start:]: if char in level: step_ins += 1 if self.delimit not in level[char]: level = level[char] else: ret.append(repl * step_ins) start += step_ins - 1 break else: ret.append(message[start]) break else: ret.append(message[start]) start += 1 return ''.join(ret) def test_first_character(): gfw = DFAFilter() gfw.add("1989年") assert gfw.filter("1989", "*") == "1989" if __name__ == "__main__": # gfw = NaiveFilter() # gfw = BSFilter() gfw = DFAFilter() gfw.parse("keywords") import time t = time.time() print gfw.filter("法轮功我操操操", "*") print gfw.filter("针孔摄像机我操操操", "*") print gfw.filter("售假人民币我操操操", "*") print gfw.filter("传世私服我操操操", "*") print time.time() - t test_first_character()

评论收藏

内容反馈