基于改进分词标注集的中文微博命名实体识别方法

【摘要】 近年来微博的快速发展使得非正式文本的命名体识别的研究受到越来越多的关注,同时微博的特点使命名体LongShort-termMemory识别研究面临着诸多挑战。针对中文微博文本词汇新奇,不符合语法,且缺少明显的词边界等特点,结合目前应用广泛的)神经网络模型以及条件随机场模型分别用于中文分词任务和命名实体识别任务,用微博语料本身训练模型,然后改进分词标注集,为条件随机场模型提供更准确更多维的特征。在新浪微博数据上进行实验,结果表明本方法相比于通用分词软件和传统四词位分词集在准确率上提高了12%(。