问题:
关键词:垃圾邮件过滤,朴素贝叶斯,特征选取,特征聚类,相似度
● 参考解析
摘 要
电子邮件(E-mail)因其方便、快捷和低成本而深入人们的生活,成为人们互相交流、获取信息的重要渠道。但是垃圾邮件的问题也随之产生。大量的垃圾邮件携带着恶意程序、商业广告和不健康内容,占用网络带宽,造成用户时间、金钱上的浪费和情绪上的不良影响,扰乱人们的正常生活。因此,Internet目前急需解决垃圾邮件的过滤问题,其技术也在不断地更新换代。
目前常用的垃圾邮件过滤技术中,朴素贝叶斯是一种简单的基于统计的机器学习方法。它通过提取训练集中垃圾邮件和正常邮件的特征构建统计模型(分类器)。由分类器根据统计规律预测新邮件为垃圾邮件或正常邮件的可能性,可能性最大的类别就是新邮件所属的类别。在垃圾邮件过滤中,由于朴素贝叶斯有运算速度快及易于实现等特点而得到广泛的应用。
朴素贝叶斯垃圾邮件过滤模型(NBF)需要解决的问题有:中文邮件的分词及特征词的选取,概率模型的计算等。本文针对这些问题提出将数据挖掘中文本挖掘的聚类方法引入到过滤模型中来,对传统模型进行了有效的改进。
在垃圾邮件过滤的过程中,人们宁可接收更多垃圾邮件也不愿一封正常邮件被判为垃圾邮件,而单纯白名单技术的缺点是:一些正常邮件由于不是发于系统白名单中的地址有可能被阻断。本文针对此问题提出了一种基于白名单技术和贝叶斯分类双层垃圾邮件过滤模型。
本文概述了垃圾邮件过滤问题的研究现状,包括垃圾邮件的定义、危害、特征分析以及常用的过滤技术;详细介绍和分析了传统的NBF模型中的关键问题;然后针对黑名单技术的缺点,并针对贝叶斯过滤模型中邮件文本特征选取中特征维数过多的不足,通过引入特征聚类方法减少特征维数,提出了一种双层过滤模型,从而实现了对传统NBF模型的改进。
相关内容
相关标签