期刊屋 > 医学

基于Tesseract的医学化验单内容识别技术

【摘要】目的由于化验单内容可以真实地记录患者健康状态，因此将纸质的化验单转为医疗电子档案进行存储在进行保险理赔、转院、远程会诊、建立健康档案时都具有重要作用。但目前在临床上尚缺乏能识别化验单内容，把化验单直接转成医疗电子档案的工具，为此本文设计了一套完整的自动化医学化验单内容的光学字符识别(opticalcharacterrecognition，OCR)方法。方法首先对化验单图像进行预处理，利用大津法对化验单图像进行二值化、用霍夫变换对图像进行抗扭斜和特征提取，然后使用Tesseract的集束搜索算法和K邻近算法对化验单内容进行识别，对字库进行训练，利用医学词典文件与模糊字文件来对识别内容进行纠错，并以此建立医学化验单OCR引擎。最后利用从上海某社区医院收集的302条化验单数据对OCR引擎的准确率进行了评估。结果经评估验证，本文方法的识别准确率为92.72%，可基本满足临床需求。结论基于Tesseract建立的医学化验单OCR引擎可以免去手动输入化验单数据的麻烦，医生仅需拍照上传化验单照片，即可将化验单中的内容转成结构化医疗电子档案，极大提高了医生的工作效率，有助于数据的进一步利用。

基于Tesseract的医学化验单内容识别技术

【基于Tesseract的医学化验单内容识别技术】相关的文章

医学最新帖子

热门文章

基于Tesseract的医学化验单内容识别技术

【基于Tesseract的医学化验单内容识别技术】相关的文章

医学 最新帖子

热门文章

医学最新帖子