Meteor 的 WebSerializer
用于meteor 的Web 解析器和抓取器,用于收集html 并将其转换为文档模式。 简单的抓取,能够对收集的页面元素和整个表格进行转换,包括批量行和列操作。
动机:优化非结构化 -> 时间序列数据!
一旦定义了 WebSerializer 模式,随后的抓取会导致数据存储具有固有结构,从而可以轻松查找和匹配 html 文档和网站中的单个更改。 表格存储在文档 <-> 行的基础上,并带有上下文信息,可以重新序列化原始表单。 非常适合基于上下文的自然语言处理和人工神经网络。
安装
添加到流星包系统。 (尚未在大气中发表)
API 参考
去做
WebSerializer 架构
var schema = {
htmlDocument : "" ,
url : "" ,
jobId : "" , // opt
encoding : "" ,
评论0
最新资源