面向专利的主题短语提取

【摘要】 在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Ge­neralizedPolyaurn(GPU)的改进模型GW_PhraseLDA。根据专利文本特点,使用BLSTM-CRF模型进行专利短语抽取,利用训练好的词向量生成先验知识。在Gibbs采样的迭代过程中,利用GPU策略提升语义相关短语在同一主题下的概率%在中文专利文本上的实验结果表明,所提模型能够有效提高专利主题生成质量,相比传统的主题模型更具可解释性和判别性。