没有合适的资源?快使用搜索试试~ 我知道了~
基于GATE的信息抽取系统介绍
4星 · 超过85%的资源 需积分: 10 72 下载量 162 浏览量
2009-04-05
12:27:26
上传
评论 1
收藏 36KB DOC 举报
温馨提示
试读
5页
基于GATE的信息抽取系统介绍基于GATE的信息抽取系统介绍基于GATE的信息抽取系统介绍基于GATE的信息抽取系统介绍
资源推荐
资源详情
资源评论
1 GATE 介绍
GATE 是一个应用广泛的信息抽取的开放型基础架构,为用户提供图形化的开发环境,
被许多自然语言处理项目尤其是信息抽取研究项目所采用。该系统对语言处理的各个环
节――从语料收集、标注、重用到系统评价均能提供很好的支持。
GATE 设计的三个主要目的是:
1) 为语言处理软件提供基础架构,提供文本处理的总体组织结构。
2) 提供可重用的用于自然语言处理的组件和类库,从而能够嵌入到各种不同语言处理
的应用程序中。
3) 提供语言工程的开发环境,为语言处理软件的研究和开发提供一种方便的图形化的
环境,为用户提供全面的开发帮助和可视化的调试机制。
1.1 CREOLE
GATE 平台的核心是可重用组件――CREOLE(a Collection of REusable Objects for
Language Engineering),CREOLE 基于 Java Bean 实现,有三种类型:
Language Resources(LRs):LR 可以理解成 IE 要处理的文本,在 GATE 中用
Document 对象表示可处理的文本,目前支持 XML,HTML,PDF 等格式,Corpus 则是一
组 Document 的集合,可以作为一个整体来处理。
Processing Resources(PRs):PR 是 GATE 中进行语言处理的模块,不同的 PR
可以完成不同的具体任务,比如分词,模式匹配等。
VisualResources(VRs):VR 是 GUI 中的可视化编辑部件。
1.2 ANNIE
GATE 中的所有可重用资源的集合,被整体地的用在了基于规则方法的英文信息抽取
系统 ANNIE(A Nearly-New IE system)中。简单来说,ANNIE 是一个可重用并且易扩展
的组件集合,任务是完成信息抽取和标注。
在 GATE 的 GUI 中 ANNIE 对应于 Application,它把一组 PR 拼接起来组成一个
PipeLine 作用于一个 Corpus 或者 Document 上以产生对文本的标注结果。具体来讲,就
是一篇待处理文档,经过类似流水线一般的处理,严格按照规定顺序经过英文分词、英文
词表查询、英文分句、英文词性标注、英文抽取规则定义、英文命名实体识别和英文共指
消解处理之后,实现整篇文档的信息抽取。
下面举个简单例子来说明 ANNIE 的信息抽取过程。
ANNIE 对于文本中的标注可以通过以下三步来完成:以标注"July 31, 2000"为例说明:
资源评论
- xuefenls2012-06-24还不错,但是还不够具体:)
- sunmeal2012-03-13对GATE的语法进行了一个初步的描述,要是有里面的规则就更好了
- qq_382929752018-12-25总体还不错
yanmiya
- 粉丝: 7
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功