问题:
关键词:数据挖掘;不均衡分类;类别噪声;类重叠;网络入侵
● 参考解析
在实践需求的推动下,不均衡分类研究迅速成为数据挖掘领域的热点问题,并广泛应用在网络入侵检测等实践问题中。现有的不均衡分类方法往往将问题局限在样本量不均衡上,对于类重叠对不均衡分类的影响研究较少,尚未提出不均衡分类的类重叠处理方法。同时,由于类别噪声的存在,稀有类的预测效率往往不高,已有的噪声处理算法往往仅关注属性噪声,而对类别噪声处理效果欠佳。鉴于此,本文首先研究类重叠数据的类别噪声处理;其次通过仿真研究和算法分析相结合的方法研究类重叠对不均衡分类的影响,并比较类重叠和样本量不均衡对不均衡分类的影响;最后,在已有研究的基础上,提出了一个不均衡分类的类重叠学习框架。论文主要贡献如下:1、类重叠数据的类别噪声处理研究对于类重叠数据,类别噪声的影响往往要比属性噪声更大一些,已有的噪声处理算法极易将重叠区域数据误识别为类别噪声处理掉。本文在LOF算法的基础上提出了一种基于组合局部孤立系数的类别噪声处理算法:CLOF。算法通过 、 、 三个局部孤立系数值,综合利用整体和局部信息,来识别类别噪声,并更正其标签。在仿真数据集和UCI数据集上的实验结果表明,CLOF算法能够有效地识别类别噪声,并在一定程度上降低了重叠区域数据被误识别为噪声的概率,提高了稀有类的预测效果。2、不均衡分类的类重叠问题学习策略研究本文在已有文献的基础上提出了四种不均衡分类的类重叠学习策略,并将朴素贝叶斯用于识别实际数据的重叠样本,同时,对类重叠问题及其与样本量不均衡问题的相互影响进行了系统研究。在真实数据上的实验结果表明:多数情况下类重叠处理策略能够提高不均衡分类的效果,且四种处理策略中“分隔法”表现最佳。3、不均衡分类的类重叠问题学习策略在网络入侵检测中的应用研究本文以实际应用为背景,结合网络入侵检测说明了不均衡分类繁的类重叠处理策略的应用过程。同时将本文提出的不均衡分类的类重叠学习框架:朴素贝叶斯识别重叠区域+分隔法,应用到KDD CUP99网络入侵检测数据集中,实验结果表明,本文提出的不均衡分类的类重叠学习框架能够有效应用于实际问题,提高稀有类的预测效果,从而为组织相关决策提供支持,降低风险。
相关内容
相关标签