详细信息
基于深度学习的高血压中医医案知识图谱的构建
文献类型:学位论文
中文题名:基于深度学习的高血压中医医案知识图谱的构建
作者:羊艳玲[1];
第一作者:羊艳玲
机构:[1]甘肃中医药大学;
第一机构:甘肃中医药大学
导师:李燕;甘肃中医药大学
授予学位:硕士
语种:中文
中文关键词:知识图谱;深度学习;命名实体识别;链路预测;中医医案;高血压
年份:2022
摘要:中医医案是医家诊疗经验的积累与总结,能够反映临床经验和学术特色,是具有参考和借鉴性的诊疗资料,历代医家都十分重视对医案的概述和总结。高血压病属于现代医学的疾病名称,其发病率高、影响广泛、病因病机未明、服药周期长,对工作和生活造成极大不便,患者依从性较差。利用中医药的方法进行治疗或辅助治疗,有望实现高效低毒的高血压治疗效果。如何有效精准分类、控制和预防高血压已成为当今社会人们必须认真面对的问题之一。随着人工智能以及大数据技术在医学方面的大规模应用,基于大数据深度学习的技术不仅为各种疾病提供更快速、精准的数据服务支持,而且研究人员可对临床医疗数据做进一步深度分析,也对其它病症提供有用的参考。在中医方面,中医医案的数据挖掘可以帮助我们发现大量隐藏的临证经验与用药规律。然而,一方面中医医案信息存储以自然语言为主,而这种形式不利于特征的获取且会产生信息“孤岛”问题,浪费资源;另一方面,中医医案尚缺乏统一的标注语料和规范,使通用的实体识别和关系抽取模型方法难以直接应用于中医医案中,为其自然语言处理任务带来巨大挑战。目前,结合中医独特文本进而构建医疗语料库已成为医疗领域科研的重点与难点。为了克服上述困难,医学知识图谱的构建及实现为医疗知识的可视化和分析提供了一种可行的解决方案。本文针对中医医案中中文分词困难、实体种类繁多、歧义等难点,提出了基于双向长短期记忆神经网络(Bi LSTM)和条件随机场(CRF)的混合模型进行命名实体识别;构建了基于深度学习技术的知识图谱实现可视化,先对中医医案的文本进行命名实体识别和关系抽取,再使用图数据库Neo4j存储医疗知识实现知识图谱可视化及分析,并在后期对知识图谱进行链路预测。论文的主要研究内容如下:(1)基于双向长短期记忆神经网络条件随机场(Bi LSTM-CRF)模型进行命名实体识别。根据深度学习模型特点,该模型使用Bi LSTM作为特征提取器,CRF进行序列标注,通过对语料集进行标注实现对医案中疾病、症状、证候、治法和处方五类实体进行命名实体识别,最后对识别的效果进行分析,表明实验的结果符合最初实体识别的需求。同时将深度学习模型应用于知识图谱,提高了知识图谱的应用范围。(2)优化基于深度学习的关系抽取模型的训练。针对实体间关系抽取的特征选择问题,本论文结合实体抽取设计出一种联合模型,采用“BIO+关系类型+位置标注”将原来的标记方式中的一系列预先确定的关联转化为三元组(实体信息,实体关系,实体在关系中的位置)。(3)利用图数据库Neo4j对知识图谱进行可视化分析。Neo4j使用非结构化的方式来存储关系复杂且关联深度大的数据,能够实现高效的关系查询。通过前两章从中医医案中识别出的实体及关系完成知识图谱的构建及可视化,旨在通过知识图谱将“平面化”的中医医案进行“多维度”呈现。(4)基于链路预测模型帮助找到和恢复知识图谱上丢失的信息。本文创新性地提出一种新的层级结构模型HSTP(Hierarchical Structure Type),该模型基于类型和层级结构获取信息,能够有效表达实体之间的语义关联,结果在链路预测任务的基准数据集上提高了3.9%左右,为解决知识图谱中缺失信息的发现与还原提供基础。本论文旨在通过上述内容的研究,设计并实现了针对中医医案知识图谱的构建,并利用深度学习提高医学知识图谱的语义理解,从命名实体识别、关系抽取、知识图谱的可视化及链路预测等内容进行了详细地阐述。知识图谱在中医领域的应用是将辨证论治知识体系中显性知识与隐性知识综合分析,运用知识图谱可视化技术表达出来,实现“病-症-证-方-药”的可视化。人工智能可以将医学知识嵌入到网络,用来指导和丰富医学文本得以表示,我们希望这一部分成果未来应用到更广泛的任务上,探索出人工智能研究的热点与未来中医药领域研究预测和发展的方向,为该领域专家和学者的深入研究提供借鉴与参考。
参考文献:
正在载入数据...