没有合适的资源?快使用搜索试试~ 我知道了~
中医古籍文本本分析系统关键技术研究与实现.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 167 浏览量
2023-09-11
13:25:32
上传
评论
收藏 570KB DOCX 举报
温馨提示
试读
31页
中医古籍文本本分析系统关键技术研究与实现.docx
资源推荐
资源详情
资源评论
1
摘 要
中国古籍是我国优秀的民族文化遗产,中医理论在长期的医疗实践中积累了大量数
据,挖掘出其中蕴含的宝贵经验,是一项极有价值的研究工作。数据挖掘可以发现蕴藏
在中医古籍中的潜在知识,而关联规则是数据挖掘中的一个主要研究分支,是目前的主
流研究方向,侧重寻找数据之间的依赖关系以及更好的应用于特定领域中。
本文重点是对关联规则挖掘算法的研究,基于 Apriori 关联算法对古籍《伤寒九十
论》进行数据挖掘,首先对收集到的古文数据进行预处理工作,其次进行关联规则算法
的设计,利用 Matlab 将中医古籍文本数据挖掘,并通过对关联规则结果的分析,表明
挖掘的结果符合中医相关理论,具有较好的临床参考价值。
关键词:中医古籍;伤寒九十论;关联算法;Apriori
2
Abstract
Chinese ancient books are the outstanding national cultural heritage of our country. The
theory of traditional Chinese medicine has accumulated a lot of data in the long-term medical
practice, and it is a valuable research work to dig out the valuable experience contained
therein.Data mining can discover the potential knowledge contained in ancient books of
traditional Chinese medicine, and association rules, as a main research branch in data mining,
is the mainstream research direction at present, which focuses on finding the dependency
relationship between data and better application in specific fields.
This paper focuses on the study of association rule mining algorithm, based on the
Apriori correlation algorithm of ancient books "typhoid fever ninety theory of data mining,
first of all the collected data preprocessing of ancient prose work, secondly for the design of
association rule algorithm, using Matlab to Chinese medical text data mining, and through the
analysis of the result of the association rules, show that mining results conform to the relevant
theories of traditional Chinese medicine, has good clinical reference value.
Keywords: Ancient books of traditional Chinese medicine; Ninety treatises on typhoid ;
Association Rules; Apriori
3
第1章 绪论
1.1 课题研究的背景和意义
1.1.1 研究背景
随着计算机和网络为代表的信息技术迅猛发展,人们获取和利用信息的方式产生了
巨大变革,文献信息载体也逐渐向数字化、网络化方向发展。中医古籍文本的数字化建
设、数字化产品,以及网络化服务,将成为现代发展的主流趋势。中医古籍上起周秦,
下至清代,历时 2000 余年,具有数量庞大、专业性强、形式多样、内容杂糅、实用性
强、价值巨大等特点,记载着古代人民创造出来的丰富知识,是珍贵的历史数据和具有
重要价值的文化遗迹。对中医古籍的整理研究,是对传统医学的继承发展,早在西汉成
帝年间就有侍医李柱国校方技,北宋嘉佑年间林亿等校正医书等,正是这些历代学者对
古籍的不断整理研究,才能使很多中医古籍能够流传至今。然而,中医古籍的客观现状
却不容乐观, 很多已年代湮远,有些甚至已成为孤本、善本,使得很多中医古籍只能
束之高阁;另中医古籍因古籍的特殊性,不能以普通书籍印刷、传阅等传播方式广泛流
传,这大大降低了中医古籍资源的使用价值。如何客观、合理地发掘遗产,发扬学术,
做到“古为今用”,又能很好的保护这些不可复制的古籍文本,是图书馆古籍利用和文
献保护工作中的一大难题。
在计算机网络技术还未发展之时,传统中医古籍的整理与研究,从版本考证、编目、
校勘、训诂以及专科研究都用手工作业的方式,使得效率进展都很低,不能满足当前中
医事业的快速发展。随着网络时代的到来,借助现代信息技术进行古籍整理工作已成为
古籍整理得主流,近年来古籍资源的数字化,以其信息量大、检索便捷、不受时空限制
兼具保护和利用古籍等特质,大大提高了古籍研究者的工作效率而倍受青睐。古籍数字
化最早开始于 20 世纪 70 到 80 年代,人们对古籍数字化一直不断探索,中医古籍的整
理与研究发生了翻天覆地的变化。 2002 年以后,古籍数字化的探讨更多集中在理论方
面, 并逐渐转向知识库、知识发现等古籍深度利用研究方面。随着古籍数字化的进一
步发展和成熟,对中医古籍的整理与研究必然会更加深入。
1.1.2 研究意义
(1)中医古籍文本系统开发的必要性
古籍属于珍贵的文物, 每一次翻阅都会对其造成不同程度的损害, 所以它不能像一
4
般图书那样可以大范围流通, 这大大降低了古籍资源的使用价值, 这就体现了古籍文献
资源保护和利用的矛盾性, 古籍为了保护的需要, 就难以实现其文化史料价值的挖掘。
古籍文献的保护和利用, 一直以来看似无法兼得, 通过实现古籍文献资源的数字化, 将
这一矛盾成功化解。
(2)中医古籍文本系统开发的迫切性
虽然现在大家对古籍都非常的重视, 古籍的存放环境非常的严格, 古籍存放温度、
湿度、空气、光照都会影响古籍文献的寿命, 针对古籍文献的文物特性, 其安全性及防
鼠、防虫工作也不可忽视。但是即便保存环境再严格, 古籍一旦遇上了不幸的灾难, 这
对于古籍的打击来说都是毁灭性的。古籍文献资源是不可再生的, 古籍纸张每一秒钟都
在老化, 数量也在不断减少, 所以古籍文献资源数字化迫在眉睫。
(3)中医古籍文本系统开发的便利性
现有的数字存储技术内容、形式丰富多样, 占用空间小、可长久保存, 提高检索速
度, 方便用户检索。只要有网络, 读者就可以随时随地的获取所需古籍信息, 这种多方
面、多层次、多形式的服务, 使古籍研究的便利性有了质的飞跃。图像扫描技术十分简
单快捷, 而且保存起来也非常便捷, 这些优势都促进了古籍文献资源的保护与研究。
古籍资源共享, 也有利于学术研究。古籍散落在全国各地, 古籍研究者如果需要使
用某本古籍, 就非常不方便。古籍资源数字化消除了这种不便, 使得读者可以随时随地
获取所需古籍信息, 不用为了某些珍贵古籍而奔波, 而且能使相关的古籍学者通过网络
相互探讨、研究, 资源的利用率远远高于传统纸质古籍文献。
1.2 国内外研究现状
1.2.1 国内研究现状
据《中国中医古籍总目》记载,我国现存 1949 年以前出版的中医药古籍图书有 13455
种,可见中医古典文献浩如烟海,对数量巨多的中医古籍进行整理与究的工作任务十分
艰巨。二十世纪 90 年代,有一些科研单位和一些大型图书馆开始尝试古籍书目建设,
并取得了较为显著的成效。在古籍书目数字化建设的同时,善本古籍的数字化建设也在
进行,如 1996 年,上海图书馆选择古代文献中的善本古籍制成全文光盘,建立了古籍
善本检索系统。随着我国计算机和网络技术的提高,古籍数字化已具雏形。20 世纪 90
年代后期以来,古籍数字化在我国迅速发展。这一时期些人的出版单位、学术机构和商
业公司介入了古籍的数字化工作,使古籍数字化的规模迅速扩大。如国家图书馆制定庞
5
大古籍文献的数字化计划,像碑帖菁华、西夏碎金、敦煌遗珍、数字方志以及甲骨文、
《永乐大典》等;北京大学图书馆推出了“秘籍琳琅"项目:刘俊文先生开始主持“中
国基本古籍库"光盘工程;北京书同文数字化技术有限公司先后开发了《四库全书》、《四
部丛刊》 、《康熙字典》的电子版:国学公司开始开发《国学宝典》等系列产品。在这
一过程中,人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的
认识有了明显的升华。过去长期制约古籍数字化实现的一些关键性技术经过持续的研究
和试验。取得了明显进展。当前,网上可见的中文古籍数据库有近百个,大型的网络古
籍数据库也是可圈可点。古籍数字化的形式也经历了光盘版、数据库版、网络版三个建
设阶段,开发的重点也由早期的书目数据库的建设转向全文数据库,而且逐渐向专题特
色数据库、专科数据库、地方特色数据库的建设进行转变。在理论研究的方面,古籍数
字化也取得了很多实质性的进步,主要表现在古籍数字化概念已经形成;标准程式和体
系结构的确立:数据库检索系统、辅助性研究支持系统的完善;书目数据库的标准和规
范已基本确定;技术研究更多地转向古籍数字化的高级功能,如数据挖掘、知识发现等,
“我国古籍数字化工程虽然起步比欧美国家晚,但是发展至今,无论在规模和水平上都
已远远超过海外。
1.2.2 国外研究现状
在国外,北美地区由美国图书馆协会在 1980 年提出了编制《中国古籍善本国际联
合目录》,其中涉及的高校包括北美的 13 所,中国大陆的 5 所。在 1991 年,他们开始
实施把清嘉庆以前的刻本、抄本都制成机读格式,被称为《中国古籍国际联合目录》.目
前,该工作属于美国普林斯顿大学东业研究所的一个独立计划,称为“RIG-CRBP”
(Chinese Rare Books Project 中国善本图书计划)。
此后,“American Memory Pllot Project"(美国记忆导航计划)成功地将该馆 21 万件馆
藏予以数字化处理,将所有的图书、绘画、手稿和照片全部转化成数字化图像并通过国
际互联网进行传输,包括部分中文古籍图书资源。同样,英国图书馆于 1993 年发布了
“2000 年 规划目标”(Strategic objectives for the Year2000),计划到 2000 年实现馆藏文
献数字化并运行于网络,为全球读者尽可能地提供检索查询服务。”日本图书馆中收藏
有大量的中文古籍,在 1998 年, 日本国立国会图书馆制定了《国立国会图书馆数字图
书馆计划》。该计划对中国传统的文化和珍贵的典籍进行了数字化,至 2003 年, 已建立
了拥有 500 余件中文古籍图像的数据库,其中,《水乐大典》、《古文孝经》、《姓解》 、
(天台山记》等都是国内罕见的珍本古籍。目前,国外尚有很多中文古籍数字化项目正
剩余30页未读,继续阅读
资源评论
南抖北快东卫
- 粉丝: 70
- 资源: 5584
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功