没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
30页
众所周知,自然语言处理是机器学习中的重要环节,而自然语言处理需要大量数据作 为分析基础。一方面,机器学习算法需要高质量的标注数据,句法分析、图像识别等算法 的深入研究对各类标注数据的需求加大;另一方面,不同的研究方向对数据的标注要求各 不相同,因此数据标注就具有了非常广泛的应用价值。 数据标注就是对原始的数据,包括语音、文本、图片、视频等进行加工处理,转换为 机器可识别信息的过程。数据标注系统是指一个针对某一个特定任务,人工标注其正确答 案。以中文分词为例,首先数据标注系统中会显示一个汉语句子,如“我是一个中国人”; 然后标注者通过鼠标点击动作,将句子切分为一个词语序列“我/是/一个/中国/人”。这样的 人工标注数据对于统计机器模型和算法很重要。 本课题基于一个现有的数据标注系统进行改进,利用 jQuery 框架改写网页前端,使它 在不同浏览器、不同平台正常工作,并基于动态依存弧画图对原有的界面进行优化,使其 有更好的视觉效果。
资源推荐
资源详情
资源评论
---文档均为 word 文档,下载后可直接编辑使用亦可打印---
摘 要
众所周知,自然语言处理是机器学习中的重要环节,而自然语言处理需要大量数据作
为分析基础。一方面,机器学习算法需要高质量的标注数据,句法分析、图像识别等算法
的深入研究对各类标注数据的需求加大;另一方面,不同的研究方向对数据的标注要求各
不相同,因此数据标注就具有了非常广泛的应用价值。
数据标注就是对原始的数据,包括语音、文本、图片、视频等进行加工处理,转换为
机器可识别信息的过程。数据标注系统是指一个针对某一个特定任务,人工标注其正确答
案。以中文分词为例,首先数据标注系统中会显示一个汉语句子,如“我是一个中国人”;
然后标注者通过鼠标点击动作,将句子切分为一个词语序列“我/是/一个/中国/人”。这样的
人工标注数据对于统计机器模型和算法很重要。
本课题基于一个现有的数据标注系统进行改进,利用 jQuery 框架改写网页前端,使它
在不同浏览器、不同平台正常工作,并基于动态依存弧画图对原有的界面进行优化,使其
有更好的视觉效果。
关键词:数据标注;句法标注;jQuery;前端优化
Abstract
As we all know, natural language processing is an important part of machine learning, and
natural language processing requires a large amount of data as the basis for analysis. On the one
hand, machine learning algorithms require high-quality annotation data. In-depth research on
algorithms such as syntax analysis and image recognition increases the demand for various types
of annotation data. On the other hand, different research directions have different requirements for
annotation data. Therefore,
annotation has a very wide range of applications.
Data annotating is the process of processing unprocessed data, including speech, text, pictures,
video, etc., into machine-readable information. The data annotation system refers to manually
marking the correct answer for a specific task. Take the Chinese word segmentation as an example.
First, a Chinese sentence is displayed in the data annotation system, such as “我是一个中国人”;
then the annotator cuts the sentence into a word sequence “我/是/一个/中国/人
annotation data is important for statistical machine models and algorithms.
This topic is based on an existing data annotation system to improve the use of jQuery
framework to rewrite the front page of the web, so that it works in different browsers, different
platforms, and based on dynamic dependency arc drawing to optimize the original interface to
make it better visual effect.
Keywords: Data annotation; Syntax annotation; jQuery; Front-end optimization
前 言
随着互联网的高速发展,人工智能越来越贴近我们的生活,而作为实现人工智能的一
种有效方法,机器学习也成为了研究的热点。机器学习是通过算法来分析数据,并通过这
些数据进行学习,然后来解决现实问题。与传统软件程序相比,机器学习不再是单纯编写
程序解决问题,而是用大量的具有某种特定规范的数据来进行训练“机器”,通过算法从数
据中学习如何完成任务。
这种具有特定规范的数据就是人们通过数据标注平台进行人工标注得来的。本文的标
注系统是一个句法的标注系统,对句子中的词与词之间的关系进行标注,进而有助于后续
的算法研究。本文分析了各主流浏览器之间的差异,更好的完善前端架构,优化界面风格,
提高系统的有效利用率。本文完成的主要工作:
(1) 分析浏览器兼容性问题产生原因,了解浏览器在渲染和解析脚本时的差异。
(1) 利用 jQuery 框架改写前端,改进标注平台浏览器兼容性。
(2) 基于动态依存弧画图对原有的界面进行优化,使标注时更为舒适。
第一章 绪 论
本章首先介绍了数据标注平台的研究背景和重要意义,其次简单介绍了本系统的各个
组成部分及其作用,并概述了本文所做的主要工作和贡献,最后一节简单介绍了本篇论文
的组织结构。
1.1 研究背景及意义
随着机器学习的不断发展,计算机可以做越来越多的事,机器翻译,语音识别,图像
识别,情感分析等一系列的研究越来越热门。在这些机器学习的算法背后,是基于大规模
的人工标注数据。比如情感分析,首先需要一定量已经人工标注好的数据集,包括其情感
对象,情感极性等重要信息,然后基于人工的标注信息,进而通过神经网络等工具训练机
器算法,使得机器能够自己识别句子的情感要素。而数据标注系统是进行人工数据标注的
重要平台,是机器学习算法研究的重要环节。人工标注的正确率直接决定了训练出来的算
法模型的质量。
随着互联网的快速普及,数据标注平台基本都已经做成了网页模式,这样既可以方便
管理员实时查询进度和准确率,又不需要专门的平台或软件。而作为一个网页平台,浏览
器的兼容性和呈现效果是体现质量的重要标准。
1.2 数据标注系统概述
随着人工智能和机器学习的大规模发展,数据标注也成为一个新兴的行业,百度阿里
腾讯作为整个互联网行业的领头人,也早已加入其中。但是机器学习的研究方向有很多,
如图像、分词、句法等,每一个研究方向都需要不一样的数据,因此针对自己所需要的数
据研究相对应的数据标注平台很有必要。
本系统是一个句法标注平台,即在一句话中标注内部词语之间的修饰或搭配关系,从
而刻画句子的句法结构。其中,root 表示伪节点。我们将 root 指向的词称为句子的根节点,
即句子中最重要的词。我们所画的修饰或搭配关系称为依存弧,一条依存弧由三个元素构
成w
i
→
r
w
j
,其中w
i
称为核心词(父亲节点,head,father),w
j
为修饰词(儿子节点,modifier,
dependent,child),r 为关系(relation)类型,表示以何种句法角色修饰w
i
。图 1.1 给出的
是一个部分标注的例句,红框标记的就是所需要标注的修饰词。图 1.2 给出了这个例句的
标注结果。
本系统中规定了以下四个条件:
(1) 唯一根节点(single root):一个句子只有一个根节点,,即 root 只有一个儿子。
(2) 唯一父亲节点(single head):每个修饰词必须有且仅有一个核心词。
(3) 无环(acyclic):多个依存弧不能构成环(不考虑弧的方向)。
(4) 单向(unidirectional):依存弧的箭头方向由核心词指向修饰词。
本系统目前规定了 20 中依存关系类型,我们把关系类型标签分为三大类:
(1) 谓语对应的依存关系标签:root,sasubj-obj, sasubj, dfsubj;
(2) 单句内部主干关系标签:subj, subj-in, obj, att, adv, cmp;
(3) 单句内部其他关系标签:coo, pobj, iobj, de, adjct, app, exp, punc, frag, repet。
表 1.1 给出了目前 20 种依存关系类型的详细介绍。
图 1.1 标注句子示例
图 1.2 例句标注结果
剩余29页未读,继续阅读
资源评论
Rocky006
- 粉丝: 5847
- 资源: 1332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功