问题:
关键词:数据挖掘,聚类分析,投影寻踪,粒子群优化算法
● 参考解析
随着信息技术快速发展,人们需要处理的信息量也以各种方式在快速增长。面对如此庞大的信息数据库,如何从中获取人们所需要的知识是迫切需要解决的问题。在这种情况下,聚类分析作为一种数据分析工具应运而生。所谓聚类就是将物理或抽象对象的数据集合划分成由类似的对象构成的多个子集合的过程,目的是使得属于同一类别的样本之间的相似度较高,而不同类别的样本之间的相差较大,从而进一步对数据进行分析。
近年来随着聚类应用领域的扩展和深入,高维数据聚类越来越普遍,也越来越重要。当数据维数很高时,传统聚类算法也面临挑战:随着维数的增加,计算量迅速增大;对于高维数据,存在着高维空间中点稀疏的“维数灾难”,低维空间中稳健性能好的聚类方法用到高维时偏差较大。如经典的聚类算法K-Means和K-Medoid方法直接对这些高维数据进行聚类操作,效果就不理想。于是各种降维方法引起了研究者的重视,如主成分分析(PCA)算法,但这种处理方法容易导致数据原始信息的丢失。随着这一研究方向的不断发展和深化,投影聚类方法被提出。
投影聚类是把数据集通过映射投影到低维子空间,然后借助各种方法划分出该子空间内的聚类,能够有效的降低数据集的维度,同时减少数据处理的复杂度。从而达到研究和分析高维数据的目的,具有稳健性好、抗干扰性强和准确度高等优点。
本论文在阅读大量相关文献、深入了解聚类算法的原理及应用的基础上,在算法的改进、应用上做了如下工作:
首先,利用本文提到的几种群智能算法与传统的K均值聚类方法结合,给出聚类问题中个体的编码方式和适应度函数的构造以及计算方法,通过对数据库的数据进行仿真实验,根据实验结果分析不同的智能优化算法在聚类问题上表现的性能,找出较适合解决聚类问题的一种算法。
其次,利用智能算法对投影寻踪聚类模型进行优化。详细阐述了投影寻踪的背景及发展,以及其基本思想、特点和数学模型,重点介绍了智能优化算法与投影寻踪理论的结合,并应用于聚类分析中。给出算法详细的实现流程,并进行仿真实验,将测试结果与基本的K均值聚类结果进行比较,证明这种新的混合的聚类分析算法是切实有效的,并且说明量子粒子群优化算法能够使投影寻踪聚类模型得到最佳的优化。
最后,对基本投影寻踪聚类模型进行改进,重点是对目标函数的改进。并进行相关实验,验证算法的可行性。通过与基本模型的比较,证明改进策略切实可行,对算法的运算效率和聚类效果有一定提高,而且实验结果再次证明,量子粒子群是优化投影方向的最佳算法。
本文在以上工作的基础上,找到一种有效的聚类算法,即基于量子粒子群的改进投影寻踪聚类算法,多次仿真实验证明此算法有效、可行。并进一步运用该算法对生物信息学中的数据进行聚类分析,如乳腺癌细胞,Iyer基因表达谱数据,结果仍然比较理想。此后,将进一步深化聚类算法在生物学领域中的应用。
相关内容
相关标签