基于多粒度级联孤立森林算法的异常检测模型

【摘要】 孤立森林算法是基于隔离机制的异常检测算法,存在与轴平行的局部异常点无法检测、对高维数据异常点缺乏敏感性和稳定性等问题。针对这些问题,提出了基于随机超平面的隔离机制和多粒度扫描机制,随机超平面使用多个维度的线性组合简化数据模型的隔离边界,利用随机线性分类器的隔离边界能够检测更复杂的数据模式。同时,多粒度扫描机制利用滑动窗口的方式进行维度子采样,每一个维度子集均训练一个森林,多个森林集成投票决策,构造层次化集成学习异常检测模型。实验表明,改进的孤立森林算法对复杂异常数据模式有更好的稳健性,层次化集成学习模型提高了高维数据中异常检测的准确性和稳定性。