文本的预处理；数据集格式的转化.zip资源-CSDN文库

共6个文件

py：6个

版权申诉

人工智能

机器学习

数据预处理

特征工程

python

10 浏览量 2024-03-03 11:47:02 上传评论收藏 5KB ZIP 举报

在人工智能和机器学习领域，数据预处理是至关重要的一步，它直接影响着模型的性能和学习效果。本项目实践主要关注的是“文本的预处理”以及“数据集格式的转化”，这是构建自然语言处理（NLP）模型前必不可少的环节。我们将深入探讨这个主题，并结合提供的“NLPreprocess-main”文件，解析预处理过程中的关键步骤。一、文本预处理 1. **分词**：在中文文本中，由于没有明显的空格分隔，需要通过分词工具（如jieba分词库）将句子切分成单词或短语，以便后续分析。 2. **去除停用词**：停用词是指在文本中频繁出现但不携带太多信息的词语，如“的”、“是”等。去除这些词语可以减少无用信息，提高模型效率。 3. **词干提取与词形还原**：将词汇还原到其基本形式，如将“正在”、“在”还原为“在”，这有助于减少词汇的多样性，便于模型处理。 4. **去除标点符号**：标点符号在语义理解中往往并不重要，因此通常会被剔除。 5. **编码转换**：确保所有文本采用统一的编码格式（如UTF-8），防止乱码问题。 6. **特殊字符处理**：对URL、邮箱地址等特殊字符进行清理，以免干扰模型训练。 7. **词袋模型/TF-IDF**：将文本转化为数值型向量，词袋模型忽略词序，TF-IDF则考虑了词的重要性和文档频率。二、数据集格式转化 1. **数据清洗**：删除缺失值、异常值，处理重复数据，确保数据质量。 2. **数据标准化/归一化**：将数值数据缩放到同一尺度，避免不同特征之间的数值差异影响模型训练。 3. **结构化数据**：将非结构化的文本数据转化为结构化数据，例如通过词袋模型或TF-IDF得到的词向量矩阵。 4. **划分训练集和测试集**：合理划分数据集，通常采用80%的数据用于训练，20%用于测试模型性能。 5. **CSV或其他格式转换**：根据需求，将数据保存为适合算法读取的格式，如CSV、JSON或Pandas DataFrame。 6. **数据增强**：在有限数据的情况下，可以通过旋转、填充、噪声注入等方式增加数据的多样性，提高模型泛化能力。在“NLPreprocess-main”文件中，可能包含了实现以上预处理步骤的代码和脚本，通过运行这些代码，我们可以完成从原始文本到可供模型训练的输入数据的转化。掌握这些技能对于任何涉及文本处理的AI项目都至关重要，无论是情感分析、文本分类还是机器翻译。通过有效的数据预处理，我们可以为模型提供更高质量的输入，从而提高其预测准确性和性能。

资源推荐

资源详情

资源评论

收起资源包目录

文本的预处理；数据集格式的转化.zip （6个子文件）

NLPreprocess-main

__init__.py 349B

11.py 386B

file_utils

format_transfer.py 346B

nlp_io.py 872B

text_process

tokenize.py 2KB

basic_process.py 5KB

# -*- coding: utf-8 -*- """ ------------------------------------------------- Description : Author : kedaxia date： 2021/12/28 Copyright: (c) kedaxia 2021 ------------------------------------------------- Change Activity: 2021/12/28: ------------------------------------------------- """ def get_entity_in_sentence_id(start_idx,end_idx, sentence_boundary): ''' 根据一个单词单词在raw_text的start_offset和end_offset范围来得到这个单词在第几个句子里常用于关系分类任务... :param end_idx: :return: ''' for idx, tmp_idx in enumerate(sentence_boundary): sentence_start, sentence_end = tmp_idx if sentence_start <= start_idx <= end_idx <= sentence_end: return idx raise ValueError("出错了") def get_origin_to_new_index(raw_text,tokenize_words): ''' 将tokenize_words与raw_text的字符级别index进行对照，形成映射点到点的映射 :param tokenize_word: :param abstract_text: :return: 返回两个字典 ''' # raw_text的index对应 raw_index_to_tokenize_index = {} start1 = 0 start2 = 0 tokenize_text = "".join(tokenize_words) while start1<len(raw_text) and start2<len(tokenize_text): while start1<len(raw_text) and start2<len(tokenize_text) and raw_text[start1] != tokenize_text[start2]: start1 += 1 while start1<len(raw_text) and start2<len(tokenize_text) and raw_text[start1] == tokenize_text[start2]: raw_index_to_tokenize_index[start2] = start1 start1 += 1 start2 += 1 tokenize_index_to_raw_index = {value:key for key,value in raw_index_to_tokenize_index.items()} return raw_index_to_tokenize_index,tokenize_index_to_raw_index def find_entity_sentence_id(start_idx,end_idx, sentence_boundary): ''' 这是获得当前实体在abstract中的第几个句子，即序列号其实，一般实体都是出现在一个句子之中，因此，主要是 :param entities: 这里使用无需转换的idx，skr :param end_idx: :return: ''' for idx, tmp_idx in enumerate(sentence_boundary): sentence_start, sentence_end = tmp_idx if sentence_start <= start_idx <= end_idx <= sentence_end: return idx raise ValueError("没有找到这个单词在哪个句子中...") def find_entity_word_id(start_idx,end_idx, word_boundary): ''' 主要是将entities的offset从char-level转变为word-level的index...，这是转变为BIO格式的关键一步，一个word对应一个label... :param entities: :param sentence_li: :return: ''' idx = 0 while idx < len(word_boundary): s1, e1 = word_boundary[idx] if start_idx == s1 and end_idx == e1: # 实体是一个单词的情况 return (idx, idx) elif start_idx == s1 and end_idx != e1: # 实体多个单词组成 tmp_start = idx while idx < len(word_boundary): s1, e1 = word_boundary[idx] if end_idx != e1: idx += 1 else: tmp_end = idx return (tmp_start, tmp_end) raise ValueError("没有找到当前word在tokenize word的位置，这可能是分词导致的错误....") else: idx += 1 raise ValueError("没有找到当前word在tokenize word的位置，这可能是分词导致的错误....") def get_word_boundary(raw_text,tokenize_word): ''' 相当于得到每个单词在raw_text的index :param tokenize_word: :param abstract_text: :return: ''' word_boundary = [] start2 = 0 text_len = len(raw_text) for idx, word in enumerate(tokenize_word): if word == '``': raise ValueError while start2 < text_len and raw_text[start2] != word[0]: start2 += 1 start1 = start2 word_start = 0 while word_start < len(word) and start2 < text_len and raw_text[start2] == word[word_start]: start2 += 1 word_start += 1 if start2 >= text_len: word_boundary.append((start1, start2)) break word_boundary.append((start1, start2)) return word_boundary def get_sentence_boundary(raw_text, sentence_li): ''' 给定一个文档和文档中的各个句子得到每个句子在raw_text的index范围 :param raw_text: :param sentence_li: :return: sentence_boundary [(0,12),(13,15),...] ''' sentence_boundary = [] # 这个就是 start2 = 0 text_len = len(raw_text) for idx, sentence in enumerate(sentence_li): while start2 < text_len and raw_text[start2] != sentence[0]: start2 += 1 start1 = start2 word_start = 0 while word_start < len(sentence) and start2 < text_len and raw_text[start2] == sentence[word_start]: start2 += 1 word_start += 1 if start2 >= text_len: sentence_boundary.append((start1, text_len)) break sentence_boundary.append((start1, start2)) return sentence_boundary

评论收藏

内容反馈

版权申诉