百度信息抽取比赛baseline.zip资源-CSDN文库

共22个文件

py：13个

xml：2个

p_eng：1个

134 浏览量 2023-08-24 16:51:50 上传评论收藏 178KB ZIP 举报

标题 "百度信息抽取比赛baseline.zip" 提供了一个关于竞赛背景的知识点，这表明你可能参与了一个由百度主办的信息抽取竞赛。信息抽取（Information Extraction，简称IE）是自然语言处理（NLP）领域的一个重要任务，它涉及到从非结构化的文本中自动抽取出有价值的信息，如实体、关系和事件等。在这样的比赛中，参赛者通常需要设计和实现算法来识别和提取文本中的关键信息，以满足特定的需求或完成特定的任务。描述中提到的 "百度信息抽取比赛baseline.zip" 暗示了这个压缩包可能包含了比赛的基础代码或者模型。Baseline是指一个基本的、可供参考的解决方案，通常由组织者提供，参赛者可以在此基础上进行改进和优化。这可能包含了一些预训练的模型、数据处理脚本、特征工程代码以及评估指标的实现。通过分析和理解这些基线代码，参赛者可以更好地了解比赛的目标和评价标准，并尝试开发出更高效的算法。在标签为空的情况下，我们可以推测这个压缩包的内容主要围绕着信息抽取技术，可能包括以下知识点： 1. **自然语言处理基础**：参赛者需要对词法分析、句法分析、命名实体识别（NER）、关系抽取（RE）等NLP基础知识有深入的理解。 2. **深度学习模型**：当前信息抽取领域的主流方法多采用深度学习，如BERT、RoBERTa、Transformer等预训练模型，用于抽取和理解文本中的信息。 3. **特征工程**：基线代码中可能会有如何从原始文本中构建有效特征的示例，这包括词袋模型、TF-IDF、词嵌入等。 4. **数据处理**：参赛者需要熟悉如何处理大规模文本数据，包括数据清洗、标注数据的读取、数据划分等步骤。 5. **模型训练与优化**：理解如何使用机器学习或深度学习框架（如TensorFlow、PyTorch）进行模型训练、验证和调参。 6. **评估指标**：信息抽取的评估通常使用精确率（Precision）、召回率（Recall）和F1分数，以及可能的特定任务的定制指标。 7. **实验设计**：如何设计有效的实验对比不同模型的性能，包括A/B测试、交叉验证等方法。 8. **结果可视化**：如何通过工具（如TensorBoard）展示模型的训练过程和结果，以辅助分析和决策。 9. **代码结构与规范**：良好的代码组织和编程规范有助于团队协作和代码复用。在文件列表中只有一个名为 "ori_code" 的文件或目录，这可能是原始代码文件或代码仓库的根目录。在这个目录下，你可能会找到上述提到的各个部分，如数据预处理脚本、模型定义文件、训练和评估脚本等。通过深入研究和扩展这些基线代码，你可以提高在比赛中获得更好成绩的可能性。

资源推荐

资源详情

资源评论

收起资源包目录

百度信息抽取比赛baseline.zip （22个子文件）

ori_code

lib

get_char.py 2KB

get_vocab.py 3KB

conf_lib.py 3KB

get_spo_train.py 1KB

.idea

misc.xml 313B

information-extraction-me.iml 398B

modules.xml 302B

bin

p_classification

p_model.py 4KB

p_data_reader.py 10KB

p_train.py 6KB

p_infer.py 5KB

so_labeling

spo_infer.py 8KB

spo_train.py 6KB

spo_model.py 4KB

spo_data_reader.py 12KB

evaluation

calc_pr.py 9KB

conf

IE_extraction.conf 962B

README.md 5KB

dict

word_idx 261KB

label_dict 38B

p_eng 640B

postag_dict 58B

# 信息提取基线系统-InfoExtractor ## 摘要 InfoExtractor是一个基于Schema约束知识提取数据集（SKED）的信息提取基线系统。 InfoExtractor采用具有p分类模型和so-labeling模型的流水线架构，这些模型都使用PaddlePaddle实现。 p分类模型是多标签分类，其使用具有最大池网络的堆叠Bi-LSTM来识别给定句子中涉及的谓词。然后在这样的标记模型中采用BIEO标记方案的深Bi-LSTM-CRF网络，以标记主题和对象提及的元素，给出在p分类模型中区分的谓词。 InfoExtractor在开发集上的F1值为0.668。 ## 开始 ### 环境要求 Paddlepaddle v1.2.0 Numpy 内存要求10G用于训练，6G用于推断 ### Step 1: 安装paddlepaddle 目前我们只在PaddlePaddle Fluid v1.2.0上进行了测试，请先安装PaddlePaddle，然后在[PaddlePaddle主页]((http://www.paddlepaddle.org/))上查看有关PaddlePaddle的更多详细信息。 ### Step 2: 下载训练数据，开发数据和schema文件请从[竞赛网站](http://lic2019.ccf.org.cn/kg)下载训练数据，开发数据和架构文件，然后解压缩文件并将它们放在./data/文件夹中。 ``` cd data unzip train_data.json.zip unzip dev_data.json.zip cd - ``` ### Step 3: 获取字典文件词典文件从训练和开发数据的字段“text”中获取高频字，然后将这些高频词组成字典。从训练和开发数据的字段“postag”中获取高频词，然后将这些高频词组成词典。 ``` python lib/get_char.py ./data/train_data.json ./data/dev_data.json > ./dict/char_idx python lib/get_vocab.py ./data/train_data.json ./data/dev_data.json > ./dict/word_idx ``` ### Step 4: 训练p分类模型首先，训练分类模型以识别句子中的谓词。请注意，如果您需要更改默认的超参数，例如隐藏层大小或是否使用GPU进行训练（默认情况下，使用CPU训练）等。请修改```/ conf / IE_extraction.conf```中的特定参数，然后运行以下命令： ``` python bin/p_classification/p_train.py --conf_path=./conf/IE_extraction.conf ``` 经过训练的p分类模型将保存在文件夹```./ model / p_model```中。 ### Step 5: 训练so-labeling模型在获得句子中存在的谓词之后，训练序列标记模型以识别对应于出现在句子中的关系的s-o对。 在训练这样的标记模型之前，您需要准备符合训练模型格式的训练数据，以训练如此标记的模型。 ``` python lib/get_spo_train.py ./data/train_data.json > ./data/train_data.p python lib/get_spo_train.py ./data/dev_data.json > ./data/dev_data.p ``` 要训练这样的标签模型，您可以运行： ``` python bin/so_labeling/spo_train.py --conf_path=./conf/IE_extraction.conf ``` 经过训练的so-labeling模型将保存在文件夹```./ model / spo_model```中。 ### Step 6: 用两个经过训练的模型进行推断训练结束后，您可以选择经过训练的预测模型。以下命令用于使用最后一个模型进行预测。您还可以使用开发集来选择最佳预测模型。要使用带有演示测试数据的两个训练模型进行推理（在```/。/ data / test_demo.json```下），请分两步执行命令： ``` python bin/p_classification/p_infer.py --conf_path=./conf/IE_extraction.conf --model_path=./model/p_model/final/ --predict_file=./data/test_demo.json > ./data/test_demo.p python bin/so_labeling/spo_infer.py --conf_path=./conf/IE_extraction.conf --model_path=./model/spo_model/final/ --predict_file=./data/test_demo.p > ./data/test_demo.res ``` 预测的SPO三元组将保存在文件夹```./ data / test_demo.res```中。 ## 评估精度、召回率和F1分数是衡量参与系统性能的基本评价指标。在获得模型的预测三元组之后，可以运行以下命令。 考虑到数据安全性，我们不提供别名字典。 ``` zip -r ./data/test_demo.res.zip ./data/test_demo.res python bin/evaluation/calc_pr.py --golden_file=./data/test_demo_spo.json --predict_file=./data/test_demo.res.zip ``` ## 讨论如果您有任何问题，可以在github上提交一个问题，我们会定期回复您。 ##版权和许可版权所有2019 Baidu.com，Inc。保留所有权利 根据Apache许可证2.0版（“许可证”）获得许可; 除非符合许可，否则您不得使用此文件。您可以在此处获得许可副本 http://www.apache.org/licenses/LICENSE-2.0 除非适用法律要求或书面同意，否则根据许可证分发的软件将按“原样”分发，不附带任何明示或暗示的担保或条件。有关管理许可下的权限和限制的特定语言，请参阅许可证。 ##附录在发布的数据集中，句子的字段postag表示句子的分割和词性标注信息。词性标注(PosTag)的缩略语及其对应的词性意义见下表。 此外，数据集的给定分段和词性标注仅是参考，可以用其他分段结果替换。 |POS| Meaning | |:---|:---| | n |common nouns| | f | localizer | | s | space | | t | time| | nr | noun of people| | ns | noun of space| | nt | noun of tuan| | nw | noun of work| | nz | other proper noun| | v | verbs | | vd | verb of adverbs| | vn |verb of noun| | a | adjective | | ad | adjective of adverb| | an | adnoun | | d | adverbs | | m | numeral | | q | quantity| | r | pronoun | | p | prepositions | | c | conjunction | | u | auxiliary | | xc | other function word | | w | punctuations |

评论收藏

内容反馈