基于部分标签数据和经验分布的命名实体识别

【摘要】 近年来,基于数据驱动的命名实体识别方法在新闻、生物医疗等领域上取得了很大的成功,然而许多领域缺少标签,且人工标注成本高昂。为了降低标注成本,该文尝试使用含有噪声的部分标签数据进行命名实体识别,提出了一种基于部分标签数据和经验分布的方法。首先介绍基于部分标签数据的建模方法,然后引入标签经验分布的假设,通过将经验分布加入模型,有效降低了数据中的噪声。最后分别在植物病虫害数据集和优酷视频数据集上进行测试,结果表明,该方法优于其他方法。