当前位置:问答库>论文摘要

问题:

题目:应用少量标记样本的支持向量机分类研究

关键词:标记样本,机器学习,主动学习,支持向量机分类,支持向量聚类,相似度融合

参考答案:

  参考解析


随着科学技术的迅速发展,存储设备的快速增大,收集大量的未标记样本已不是难事,而获取大量有标记的样本则相对较为困难,因为获得这些标记可能需要耗费大量的人力、物力以及财力。如何仅用少量的标记样本和大量的未标记样本来改善学习器机的性能、提高分类的精度已成为当前机器学习中研究的热点。
同时,支持向量机(SVM)是继人工神经网络(ANN)之后新的机器学习方法,它以统计学习理论(Statistical Learning Theory,SLT)和结构风险最小化(Structural Risk Minimization,SRM)原则为基础。与传统的机器学习算法相比较,支持向量机(SVM)是利用核函数将样本特征空间映射到高维特征空间,将非线性分类问题转换成线性分类问题,解决了传统算法中训练集误差最小而测试集误差仍较大的问题。所以,近年来该方法成为机器学习领域内的一项新型技术,在分类和回归问题中得到了广泛的应用。支持向量机(SVM)目标是寻求对高维特征空间划分的最优分类超平面,其关键是在保证训练样本的分类误差尽可能的小情况下,使得类间分类间隔最大化。训练结果只与支持向量有关,非支持向量不会影响分类的结果,算法的复杂性亦取决于支持向量的数目,而不是样本空间的维数。支持向量决定了分类结果,这不仅有利于我们抓住关键的标记样本、减少大量冗余样本,而且注定了该方法不但算法简单,更具有较好的“鲁棒”性。如果我们事先能有效的预选出其中的潜在支持向量,这样标记样本的数目就会缩减很多,不但提高了支持向量机训练算法二次规划求解的速度,更重要的是减少了标记样本的规模。
本文就是基于以上考虑,提出了两种利用少量标记样本的支持向量机分类算法:一种是,基于相似度理论提出了相似度融合的主动支持向量机分类算法;另一种是,在支持向量聚类基上提出了支持向量聚类与分类相结合的分类算法。
(1)????? 相似度融合的主动支持向量机分类算法。主动学习可以主动选择最有利于提高分类器性能的样本进一步设计分类器,从而有效减少所需训练样本的数量,标记样本所需的代价也随之减少。本文就是基于相似度理论和主动学习的方法,结合支持向量机分类算法,实现的利用少量标记样本的机器学习算法。实验表明,该方法与普通主动学习的支持向量机相比,在保证分类器性能的情况下,可以减少标记样本的数目,抑制孤立样本对分类器影响,在相同标记样本数目情况下,此方法具有较高的分类精度。
(2)???? 支持向量聚类与分类相结合的分类算法。为了提高支持向量聚类的精度,降低聚类标记的时间、空间复杂度,提出了一种支持向量聚类与分类相结合的机器学习的算法。该算法是将支持向量聚类中的聚类标记阶段替换为支持向量机分类,同时将支持向量聚类所训练出的潜在支持向量作为支持向量机分类的训练样本,这样可以减少大量手工标记的工作量,同时也降低了支持向量机分类二次规划求解的复杂度。实验表明,该方法与支持向量聚类和支持向量机分类方法相比较具有明显的优势。

在线 客服