医疗大数据
1
医疗大数据解决方案
与信息系统的耦合度为零的数据才是合格的大数据
全国 97.8 万家医疗机构的信息系统基本上都是用关系数据库而建立的,然
而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系
数据库系统不适合处理大数据。
医疗大数据
2
目 录
医疗大数据解决方案 ..........................................................................................................................1
第 1 章 概要 ..............................................................................................................................................4
1.1 名词定义 .......................................................................................................................................5
第 2 章 医疗大数据面临的挑战..............................................................................................................7
2.1 医疗大数据与医院信息系统之间的具有本质的差异................................................................7
2.1.1 小问题放大万倍就会大的吓人...............................................................................................9
2.2 医疗大数据面临八大难题 .........................................................................................................10
2.3 国家大数据标准工程堪比“两弹一星” ......................................................................................14
2.4 医疗行业的信息系统顶层设计为何难产..................................................................................15
2.5 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘 ..........................................16
2.5.1 我国医疗行业每年产生多少数据.........................................................................................16
2.5.2 挖掘关系数据库系统所产生的医疗数据非常困难.............................................................17
2.5.3 仅患者与数据的对应关系就是一个大问题.........................................................................18
2.6 关系数据库理论的致命伤 .........................................................................................................19
2.6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据 .........................................19
2.6.2 关系数据库系统是一种完全封闭的系统:外来数据无法入住 .........................................22
2.6.3 关系数据库中的数据与数据系统密不可分.........................................................................22
2.6.4 关系数据库中的数据与数据结构密不可分.........................................................................23
2.6.5 关系数据库中的数据与应用程序密不可分.........................................................................23
2.6.6 关系数据库中的数据一旦脱离相应的系统就成了无意义的数据 .....................................24
2.6.7 关系数据库无法实现病历信息的结构化存贮.....................................................................24
2.6.8 关系数据库中的数据都是“方言”,大数据需要的是“普通话” ..........................................24
2.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表 ..................................25
2.8 大数据之梦十年后成真 .............................................................................................................26
2.8.1 信息化社会由概念到比较成熟用了 30 多年时间...............................................................27
2.8.2 千年虫问题的启示 ................................................................................................................27
2.8.3 大数据工程远比千年虫问题复杂.........................................................................................28
2.8.4 五年之内(2020 年前)医疗大数据只是纸上谈兵............................................................29
2.9 必须开发新型的软件工具才能对医疗大数据进行高效挖掘 ..................................................29
第 3 章 发明专利:医学信息的结构化存贮方法................................................................................30
医疗大数据
3
3.1 在了解医学信息的结构化存贮方法时的注意事项..................................................................31
3.2 医学信息的结构化存贮方法 .....................................................................................................32
3.3 数据的完整性是大数据的根本 .................................................................................................38
3.3.1 大数据的策略:以适当的数据冗余而使数据易识别.........................................................38
3.3.2 一个事物的数据 ....................................................................................................................40
3.3.3 事物分类 ................................................................................................................................40
3.3.4 关系数据库的缺陷:关系 ....................................................................................................42
3.3.5 数据的可识别性 ....................................................................................................................46
3.3.6 数据的多样性 ........................................................................................................................48
3.3.7 元数据及国际元数据标准非常重要.....................................................................................48
3.3.8 大数据的关键:让数据自己说话.........................................................................................49
3.3.9 大数据的策略:用数据代替程序.........................................................................................51
3.4 与信息系统的耦合度为零的数据才是合格的大数据..............................................................52
3.5 医学信息的结构化存贮方法与关系数据库的对比..................................................................55
3.6 应用医学信息的结构化存贮方法的注意事项..........................................................................55
3.7 超大表化问题:分为多张表 .....................................................................................................56
3.8 关系数据库中的二维表是数据不具独立性的一个根本原因 ..................................................56
3.9 “万能数据结构表”存放病历信息的例子 ..................................................................................56
3.10 医学信息的结构化存贮方法实现互联互通非常简单............................................................58
3.11 结构化录入病历信息的例子:症状的结构化........................................................................58
第 4 章 独立数据库在医疗大数据方面的优势....................................................................................61
4.1 大数据中最重要的就是查询 .....................................................................................................61
4.2 超大表问题 .................................................................................................................................61
4.2.1 自动调整表的长度 ................................................................................................................62
4.2.2 自动查询多张表 ....................................................................................................................62
4.3 用独立数据库实现国家医疗大数据的存贮处理......................................................................63
4.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表 .........................63
4.3.2 疾病、症状的相关数据 ........................................................................................................65
医疗大数据
4
第1章 概要
关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出
的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代,人
们发现,对全国 97.8 万家医疗机构所产生的医疗数据进行挖掘非常困难,当前
的大多数医疗信息系统都是用关系数据库系统而设计的。
用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严重,
根本原因在于“异构数据”。《医学信息的结构化存贮方法》中的“万能数据结
构表”可以存贮各种各样的数据,也可说用《医学信息的结构化存贮方法》所设
计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关
系数据库理论先天不足,不可能解决“异构数据”问题。
医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称作
小数据)。医疗大数据所要处理的数据是全国 97.8 万家医疗机构所拥有的数十
万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统由不
同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作都涉及
几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一
家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信
息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,
数据种类的多样化也为数据标准的制定和应用带来了挑战。
小数据的特点是数据的类型和数据都是有限的,在处理数据前能事先确定数
据的类型。而大数据的数据特点是 “多样性 (Variety)”,在处理数据时很难先
事先确定数据的类型,甚至不能确定数据的类型。目前关系数据库在数据处理中
占据统治地位,而关系数据库在处理数据时事先要确定数据的类型,因此,在处
理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越的障碍。
医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息
系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只
是处于概念阶段。大数据梦想将在 10 年后梦想成真,5 年之内,难有突破性进
展。
医疗大数据
5
国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大数
据的实际需求,需要对现有的信息系统进行彻底的改造才能适应大数据时代的
潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的!
1.1 名词定义
数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程
度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的
系统就变成了无意义的数据。大数据的数据来源于成千上万家单位的系
统,因此,大数居中的数据应该是与系统的耦合度为零的数据,否则就
需要很多的应用程度来解读数据,这会增加数据处理的难度、成本。
万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模
仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同一
张表中存贮各种各样的数据。
独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的
数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。
数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存
贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结
构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系数据
库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能
解读数据的含义。
数据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存
贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结
构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据
库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能
解读数据的含义。
数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分
出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名现