没有合适的资源?快使用搜索试试~ 我知道了~
罗瑶光_DNA元基催化与肽计算第五版_上册V100011
需积分: 0 0 下载量 42 浏览量
2022-08-08
19:55:40
上传
评论
收藏 1.85MB DOCX 举报
温馨提示
试读
43页
第一章_德塔自然语言图灵系统测试速度:单机联想Y7000笔记本win10 实测峰值每秒 中文分词1630~1650万+中文字, 词库65000+,函数准确率10
资源推荐
资源详情
资源评论
第一章_德塔自然语言图灵系统
测试速度:单机联想 Y7000 笔记本 win10 实测峰值每秒 中文分词 1630~1650 万+中文字, 词库 65000+,函数准确
率 100%,缺失语法函数 0.3%-, 算法准确率 99.7%+, 100%完整开放源码,在 api 与书籍中。
测试效果:输入:如果从容易开始于是从容不迫天下等于是非常识时务必为俊杰沿海南方向逃跑他说的确实在理结
婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础内科学作为临床医学的基础学科重点论述
人体各个系统各种疾病的病因发病机制临床表现诊断治疗与预防
输出结果:如果+从+容易+开始+于是+从容不迫+天下+等于+是非+常识+时务+必+为+俊杰+沿海+南+方向+逃跑+他+
说+的+确实+在理+结婚+的+和+尚未+结婚+的+提高+产品质量+中外+科学+名著+内科学+是+临床+医学+的+基础+内
科学+作为+临床+医学+的+基础+学科+重点+论述+人体+各个+系+统+各种+疾病+的+病因+发病+机制+临床+表现+诊
断+治疗+与+预防+++++
定义:德塔分词是一种-- 基于神经网络索引字典切割-- 进行前序遍历词性组合匹配-- 按文学语法定义搭配 的切
词引擎。
德塔分词的催化切词优化方式主要包含:
1 索引字典进行细化拆分加速。
2 函数进行使用频率统计排列加速优化。
3 动态类卷积遍历内核的关键字优化。
4 函数文件和 函数文件名 进行新陈代谢,二次新陈代谢优化索引编码加速。
5 文学切词语法函数的细化优化加速。
定义者 罗瑶光
分词,
1 德塔的分词是一种前序《排队论》逐字遍历文字索引,通过索引中的词汇匹配 按长度进行提取,然后将提取的词
汇串 进行词性切分的过程。refer page 12 ~
2 德塔的分词文字索引采用关联分类生成小文件 map 集(词性 map,词长 map,词类 map), 进行整体加速,作为一
个催化细化过程。refer page 44,54, 92,
3 德塔的词汇匹配目前有多个国家语言字符集,可统一,可拆分,目前最大划分处理长度为 4,划分切词采用动态
类似 CNN 卷积(遍历 pos 函数语句的内核计算,非卷积的积分叠加计算) StringBuilder 核做 POS 识别。refer page
45,119,120,
4 德塔的词性切分按照 4 字词 3 字词 2 字词 单字 进行逐级按词汇的 POS 搭配语法模式进行归纳,按文本的 POS 出现
频率进行流水阀门方式优化。refer page 97,116,
(德塔分词逻辑, 已经纠正红色字 ‘卷积’改为‘内核’,因为第四修订版本已经在申请中,ppt 所有书中的原图
纠正内容统一更新在第 5 版,罗瑶光)
排序,
1 德塔分词排序思想原型采用 Sir Charles Antony Richard Hoare 的 快速排序思想。
refer page 版权原因无文字收录 已经 refer 快速排序算法_百度百科
2 德塔分词排序源码原型采用 Introduction to Algorithms 的 快速排序 4 代源码。
refer page 版权原因无源码收录 已经
refer https://github.com/yaoguangluo/Data_Processor/blob/master/DP/sortProcessor/Quick_4D_Sort.jav
a
3 基于 1 和 2 原型,德塔分词排序 采用 Theory on YAOGUANG's Array Split Peak Defect 的微分催化算子优化
思想 2013 年开始优化。refer page 247,248,250,529,620,
4 优化过程为 小高峰左右比对法, 波动算子过滤思想,离散条件归纳微分思想(如狄摩根计算,流水阀门计算等),
目前为 TopSort5D。refer page 658,下册 134
5 德塔分词的函数优化方式和算法优化方式,包括分词引擎,读心术,NLP 分析等核心组件均采用 微分催化系统。
refer page 661,
神经网络索引,
1 德塔分词的词汇字典用 map 进行索引,因为 jdk8+的 map 对象的 key 支持 2 分搜索,搜索速度到了峰值。refer
page,129,131
2 德塔分词的索引不断的将大 map 进行细化分类,如词长 map,词类 map,词性 map,让搜索再次加速。refer page
55,
3 德塔分词的索引 map 支持 2 次组合计算,支持分布式服务器进行索引 cache。关于 2 次组合计算作者不建议单机
使用。refer page 92,
4 德塔分词 map 的 key 用 string 的 char 对应 ASCII int 进行标识来执行 find key,方便二分搜索存储和
StringBuilder 高速计算,实现底层核统一。refer page 92
分词在线性文本搜索中应用,
1 德塔分词的搜索建立在 map 类的权重计算方法上,不同的权重叠加产生的打分进行排序输出。refer page 下册 64
2 权重的计算方法按词性的主谓宾如代 名动形 ,和 POS 如 动名形谓介分类。refer page 下册 66
3 权重与词长,词频进行耦合 bit 叠加计算(bit 位计算比乘法要快一个数量级),生成最终输出结果。 refer page
下册 68
4 权重与词长的 比值可以精度调节,确定搜索的精确性和记录个人搜索偏好。refer page 下册 68
动态 POS 函数流水阀门细化遍历 内核匹配,
1 动态的核分为前序核和后序核两种。根据词汇分析的位置进行实时变动更新。refer page 97
2 前序核主要缓存存储词汇的位置和词性,用于 POS 词性搭配的 POS 函数流水阀门细化遍历 计算。refer page 97
3 后序核主要缓存词汇的切词链 后面准备 跟进的词语。用于 POS 语法的修正计算,如连词匹配。refer page 97
4 内核采用 StringBuilder 做核载体进行计算加速。refer page 97
2019 年 3 月 18 日之前作者 Github 的 该算法函数编码框架已经出现
https://github.com/yaoguangluo/Deta_Parser/commit/25b90c9847d15df85c5c991448f2c271e0ad8106
注意:链接的 CNN 关键词的 历史记录 属于作者用词错误,作者当年基础学术累积不够,关于卷积的知识仅仅学了
计算机视觉的理论课,以为带内核计算的都叫 CNN 卷积,
另外作者发现自己还有一个错误, 就是以为序列链表方式计算就叫隐马科夫链计算。所以 CNN+隐马可夫这两个技
术词汇,伴随作者 10 年之久。今天进行 ppt 严谨定义,翻阅大量定义文献资料,才发现这些错误。予以纠正。作
者的 ANN 和 RNN 出现的文本分析内核计算才是真正的 CNN 卷积计算。
POS,
1 德塔分词的核心类,包含了词性的搭配切分所有函数。refer page 97,116
剩余42页未读,继续阅读
资源评论
稚气筱筱
- 粉丝: 15
- 资源: 320
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功