问题:
关键词:流形学习,等距映射,最优邻域图,短路边,广义回归神经网络
● 参考解析
??? 科学技术的发展带我们走进了信息时代。人们不断接触到各种类型的高维数据。如生物数据,图像数据,航空航天数据等等。数据维数的增加为人们提供了丰富的信息,也给高维数据的分析处理带来了极大的挑战。为发现高维观测数据背后所隐藏的固有的低维结构,数据降维理论便应运而生。近年来,谱图理论的流形学习的数据降维方法引起了人们的广泛关注。文章首先介绍了数据降维的研究背景和意义、流形学习方法的发展概况及其应用;然后着重介绍了基于谱图理论的非线性流形学习算法:等距映射Isomap算法、局部线性嵌入LLE算法、拉普拉斯特征映射算法以及Hessian特征映射算法、局部切空间整合算法LTSA和扩散映射Diffusion Map算法;详细分析了以等距映射流形学习算法为典型的非线性流形学习算法存在的不足。他们通常都面临着邻域参数选择困难,对噪声敏感,不能直接得到新样本的低维嵌入,无法进行监督训练等缺陷。在深入研究前人算法的基础上,针对等距映射流形学习算法对噪声敏感,邻域参数选择困难的不足,提出了一种基于最优邻域图的改进算法。算法通过分析邻域图平均最短路径与邻域参数的变化关系,选择两个关键的邻域参数分别构建邻域图,在剔除短路边之后将两个邻域图整合构建最优邻域图。基于该方法构建的邻域图几乎没有短路边;可以根据每个数据点的不同特性采用可变的邻域参数;对数据点间的测地距有更好的逼近。实验表明:算法不仅对均匀采样、无噪声干扰的数据集有更好的降维性能,而且对噪声干扰的数据集有较强的鲁棒性与拓扑稳定性。
?????? 由于谱图理论的流形学习算法其映射函数并没有显式的给出,若想得到新样本的低维映射,必须将新样本加入到训练样本中重新构建邻域图,再计算所有样本的低维映射,才能得到新样本的低维映射,这样做了大量的重复计算。为了能够高效的处理新样本,本文提出一种结合非线性插值技术如广义回归神经网络的方法,利用训练样本的低维映射训练广义回归神经网络,使其学习到谱图理论流形学习算法的映射函数,进而用这个函数得到新样本的低维映射,这种方法的准确度基本能够达到流形学习算法本身的准确度水平,而训练样本的低维映射得到了利用,避免了重复的计算,显著提高了流形学习算法处理新样本的效率。
相关内容
相关标签