基于信息增益与CHI卡方统计的情感文本特征选择

【摘要】 信息增益()是通过某个特征词的缺失与存在两种情况下,语料中前后信息的增加,衡量某个特征词的重要IG性,其只考虑到对整体贡献,易忽略局部影响;卡方统计()是利用统计学的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的,其易忽略低频词对文本影响。通过融合值附加权值区别于非情感词,基于该算法采用支持向量机(和两种特征选择算法,并在此基础上对情感词的特征IG)分类算法对文本数据进行情感倾向性分类,实验结果表明,CHICHISVM该方式可以极大提高情感分本分类。