临床检验指标术语库的构建与病历挖掘应用

【摘要】 由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的术语库构建方案,以上海卫健委制定的医保术语为标准,先构建标准指标术语子库,再利用基于BERT的临床检验指标对齐模型,将38家医院的指标作为同义词归入标准术语。最终形成的指标术语库包含23495个实体和47746条事实三元组,可用于病历清洗、病历查询等应用。实验表明,所用指标对齐模型的F1-score可达95.78%,在大肠癌挖掘课题中使用术语库可增加查询记录高达94%。此外,大肠癌相关指标的专病术语库已在dcakb.ec-ustnlplab.com公开。