基于自然语言处理的医学实体识别与标签提取

【摘要】 随着信息化建设的快速发展,数据产生了爆炸式的增长,医院每天也同样产生大量的医疗记录与数据。其中大部分内容是非结构化数据,具有真实性、主观性和不规范性,不利于解读和处理。由于医疗数据是以非结构化的文本形式存储的,因此无法直接通过计算机直接处理和分析,不仅效率低下,分析质量也无法保证。目前的信息抽取研究中使用的方法的可扩展性都较差,具有一些局限性,故自动化程度不高。文中通过自然语言处理中的规则描述语言方法,对数据中非结构化的医学命名实体进行识别,并通过语义分析进行标签提取,使非结构化的数据结构化,让数据中的描述更为准确、统一。优化了目前信息抽取方法中存在的可扩展性差的缺点,能够根据情况适应不同的情景。