基于大数据HBase的电子病历智能全文检索系统研究
黄晓琴I戴静娟2徐海东'
摘耍针对当前医院临床信息系统中的检查报告、检验报告、电子病历等只能通过对一些结构化的数据库进行信息查询,如病人的检查ID号、性别、检查时间等结构化条件,然后通过病历相应的存储规则匹配到,不能实现病历内容的全文检索。自主研发了基于大数据HBdse技术的临床智能搜索引擎,通过搜索引擎技术破解了非结构化临床信息检索的难题,实现了在220万份临床文件通过关键词检索仅需要25ms以内的查询速度,并对医疗领域中文自然语言处理的关键技术进行了深入剖析。
羌键诃电子病丿丿J人数据全文智能检索HBase
Doi:10.3969/j.issn.1673-7571.2019.05.007
[屮图分类号]R319 [文献标识码]A
1<esearch of Intelligent Full-text Retrieval System of Electronic Medical Kecord Based on Big Data HBase/HUAN(;Xiao—qin, DAI Jing—juan,XU Hai—don呂//China Digital Medicine.—201914(5):27to29
Abstract In view of the fact that the medical records of the current hospital electronic medical record system can only be queried through some structured databases,such as the patient's examination ID number,gender,examination time and other structured conditions,then it is found by matching the corresponding storage rules of the medical records.The tiill text retrieval of medical record content cannot be realized.An intelligent electronic medical record retrieval systeni based on search cngine technology«md big dat.i HBase technology has been developed independently,which has solved the difficult problem of unstructured electronic medical record retrieval.The query7speed of searching keywords in2.2million medical records is less than25Howe seconds,and the key technology of Chinese natural language processing in medical field is deeply analyzed.
Keywords EMR,big data,full text intelligent retrieval,HBase
Fund project Medical and Health Science and Technology Program of Zhejian呂Province—Research on the Intelligent Clinical 1)ecision Analysis Platform Based on Big Data(No.2019KY187)
Corresponding author Wonders Infonnarion Co.LTD,Shanghai2()()040,P.R.C.
电子病历作为医院的宝贵财富蕴含丰富的专业知识,但目前电子病历中有大量的非结构化文本,导致了大量有用信息无法再利用,难以形成知识,无法更好地为医院信息化建设服务。而大型三甲综合医院,学科实力雄厚,对临床科研的要求也非常高,当前医院电子病历系统的病历只能通过对一些结构化的数据库进行信息查询,比如病人的检查ID号、性别、检查时间等结构化条件,然后通过病历相应的存储规则匹配到,不能实现病历内容的全文检索。因此如何利用最新的人工智能技术,让机器"读懂”病历数据,辅助医师以及相关研究人员通过对比相关的病历来发现深层次的医学规律;从而能够充分利用这些信息来辅助医师诊断,为医师从病历文本库中提取出与目前症状最相关的诊疗项或处方,能够大大提高医师的临床科研诊断效率和质量"'。
基金项目:浙江省医药卫生科技计刘项目-基于大数据的智能临床决策分析平台研究(编号:2II19KY1H7)
①万达信息股份有限公司,21)0114(1,上海市南京西路16M号
②宁波市李惠利医院东部医院,315111(),浙江省宁波市江南路1111号
27
1系统架构
系统提出一种基于SoIrCloud+HBase搭建一套高速检索引擎,并在电子病历大数据平台上开发一个Web检索展示系统,对电子病历平台中的医疗数据进行检索、分析和利用。实现以关键词检索技术为基础的电子病历智能化全文检索系统,实现海量异构数据及非结构化电子病历数据的高效检索。用SoIrCloud检索的性能解决传统关系型数据库在大数据量时检索性能上的性能缺陷。为医疗、科研、教学和医院管理等方面提供主动、方便快捷和高效的数据服务,包括各种疾病数据检索与分析、智能知识库、医疗数据/质量统计、医疗评价、健康评估、经济统计分析等,以数据为驱动,利用大数据和人工智能技术支撑循证医学和精准医学,提高临床科研效率和质量W 基于大数据HBase的电子病历全文智能检索系统的整体架构如图1所示,主要包括高并发、高可靠性的分布式大数据架构;安全、完善、高效的电子病历智能全文检索系统;数据利用模式化管控。
其中电子病历智能全文检索系统部分主要包括以下的功能模块:数据预处理:将各种原始电子病历预处理,存储为TXT或XML文件;挑选结构化数据重要字段,并与病历文本建立关系,通过Spoon kettle工具将结构化数据和非结构化数据存储到HBase 中;索引创建与维护:对病历文件进行索引创建及维护,实现全量及增量创建功能,建立全文索引库;病历基本检索模块:实现对非结构化数据的全文检索、热门搜索、搜索提示、病历收藏、条件编辑、分类查询、病历详情查看等功能。根据用户提交的关28
®
■E料研机构
M>«R
关a«N
'
李惠利
'
可a
安令审枇SKniT
图1基于大数据HBase的电子病历全文检索系统架构
键词检索索引库,并对结果进行排
序:对于分类查询医生可以根据自己
所需查看各种文档类型;病历高级检
索模块:可以通过各种关键词组合,
在基本检索的基础上实现与结构化数
据联合搜索;相似病历推荐模块:基
于统计方法构建症状库、检查库等知
识库,利用机器学习及文本相似度算
法,实现推荐诊断、检验、检查、用
药等功能;用户查询界面:接受用户
查询,并显示查询结果。可以输入任
何关键字组合,查询到匹配的电子病
历文档。
2智能检索系统使用的关
键技术
2.1数据ETL技术利用Kettle、Spark
从结构化数据库中关联抽取重要字段
并与病历文本建立关系,实现数据的
抽取转换与存储。
2.2Hadoop HBase分布式数据存储
技术基于大数据Hadoop平台,利用
HBase分布式存储技术构建电子病
历文档存储库,根据业务设计行健
(Rowkey)及列族存储电子病历相关
数据。
2.3HBase+SoIrCloud分布式索引技术
SoIrCloud是基于Solr和Zookeeper的
分布式搜索方案,它的主要思想是使
用Zookeeper作为SoIrCloud集的配
置信息,统一管理SoIrCloud的配置,
如solrc o n l和l。利用
SoIrCloud创建HBase的二级索弓丨,利
用SoIrCloud强大的全文检索、结果咼
亮、切面检索、动态聚类、数据库整
合、富文本(例如word,TXT、PDF
等)的处理、近实时搜索和查询时自
动负载均衡特点,实现大数据量的文
本记录豪秒级响应。
2.4NLP中文自然语言处理技术1中
文分词技术,对于电子病历文本使用
IK analyzer分词器,并采用正向最大
匹配算法分词进行准确的分词。连续
的英文或数字作为分词单位,实现分
词功能。对于分好的词,还需要进行
类别标签的标注,以利于发现更多规
律并进一步利用。中文分词的难点需
要大量的人力,同时需要整理词典的
人员具备相当的医疗行业知识;2机
器学习技术:使用机器学习算法实现
命名实体识别、使用聚类算法进行词
向量训练识别同义词;3命名实体识
别内容:包括人名、地名、医疗机构
名、时间、日期、数字等不可枚举的
专用词。在医疗领域,命名实体还包
括(非标准的)药品名、疾病名称、
手段、身体部位、症状、检验项
目/检查项目名称等。
命名实体识别可
以采用最大燔模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型:4基于规则的否定检出:对无、未、否认等否定词进行规则判定,理解其语义。
3建设成效和建设亮点
3.1建设成效构建了智能检索的分词和索引创建所需的强大医学术语字典库297434个,日常用语词汇库275713个,支持非结构化病历文档的中文分词技术。其中医学术语字典涵盖疾病、手术、药品、检验、检查、诊疗项目、器械等;基于大数据平台技术,构建高性能的数据存储、检索和分析的高性能分布式计算支撐平台,利用HBase技术实现非结构病历文本的存储.利用SoIrCloud+HBase 分布式检索引擎、中文自然语言处理和机器学习技术,实现了海量病历文档的毫秒级查询响应;实现了病历文档方便、灵
活和高效的结构化与非结构文档的联合搜索功能。
3.2建设亮点
3.2.1分布式大数据技术架构HBase+SoIrCloud检索引擎技术,能够支撐海量数据的存储和检索。在院内,海量的数据唾手可得一化
3.2.2病历全息捜索以患者为中心病历为维度,整合多个业务系统数据,
加入病历文书、诊断结果后结构化的
数据,构建患者全息视图,通过唯一
搜索入□对所有结构化和后结构化数
据进行全方位全息搜索,实现秒级检
索,支持文本模糊搜索和多重条件灵
活组合的高级检索,可以很好地支撑
基于病历的临床研究分析。
3.2.3患者全息视图可以将不同业务系
统中的数据进行有效整合,并以患者
及患者单次就诊为维度,将患者在不
同系统中的数据串联起来,进行集中
展示。实现患者最广(涵盖多系统数
据)最深(历次就诊所有诊疗数据)
的诊疗信息呈现。
3.2.4辅助诊疗基于统计方法构建疾病
分类库、症状库、检查库、检验库、
药品库等知识库,利用机器学习及文
本相似度算法,实现部分疾病的相似
病历推荐,从而推荐检验、检查、用
药等方案。
4结论
基于大数据架构和HBase分布式
存储技术,实现了以关键词检索技术
为基础的电子病历智能化全文检索
系统,实现了海量异构数据及非结
构化电子病历数据的高效检索。用
SoIrCloud检索的性能解决传统关系型
数据库在大数据量是检索性能上的性
能缺陷,破解了非结构化电子病历检
索的难题,实现方便、快捷地为临床
医疗、医学科研及病历管理等方面工
作提供服务。后续将结合机器学习技
术在电子病历文档集的构建和预处理
基础上,建立命名实体规则、分类词
表和领域本体,利用文本工程通用框
架进行相关主题的医疗信息抽取和统
计分析,从而实现电子病历文档集的
自动和人工语义标注。今
/参考文献
|1]蔡学锋•基于Sclr的搜索引擎核心技术研
究与应用[【)].武汉:武汉理工大学.2013.
[2]王晓.张健•基于Lucene检索引擎的
电子病历全文检索系统|J|.医疗卫生装
备.2008,29(12):43-44.
13]彭红波.陈衍.张铭.等•用Lucene引擎构建
非结构化电子病历检索系统|J|.医疗卫生装
备.2013,34(7):43-45.
|4|黄晓琴.医疗健康大数据关键问题及对策
研究UL中国数字医学.2016.11⑸:XI—X3.
|5]黄晓琴.林鸿波•基于区域卫生信息平台的
医疗卫生大数据研究UI•中国卫生信息管理
杂志.2016(6):601—605.
【收稿日期:2019-03-13]
(责任编辑:肯嬌妬)
茫■摘要“四要素”(-)
摘要“四要素”对于全文起着提纲挈领的作用,无论哪种期刊(只要是科技期刊)•必须按照“四要素”的顺序依次而写,不可颠倒或者遗漏,“四要素”包括目的、方法、结果和结论。
目的:简明指出从事该项研究(或系统研发、系统应用或开展某项活动及其他)目的、理由与背景,或所涉及的研究范围等。以系统研发为例,即为什么要搞这个研发。硏发目的或理由是什么?能够解决什么问题?
方法:简要说明系统硏发的基本做法,包括所采用的理论知识、技术原理、程序语言、功能结构、开发步骤、应用对象、实现方法等简言之,就是采用了哪些方法0完成了什么样的软件?
29