当前位置:问答库>论文摘要

问题:

题目:基于最大流与页面相似度值的Web结构挖掘研究

关键词:Web结构挖掘,HITS算法,页面相似度值,空间向量投影

参考答案:

  参考解析


Web 中的信息量正以惊人的速度增加,从这些数据中抽取、过滤和发现有用的信息,成为人们的迫切需要。Web挖掘引入超链接分析技术,为解决海量信息是否能有效利用这一问题提供了一条崭新的思路,这对提供个性化服务、改进 Web 系统性能和结构、提供商业决策支持等方面都有重要的理论和应用价值。
本文主要研究Web结构挖掘中超链接分析技术,重点研究超链接分析算法的原理以及现存的一些问题,将空间向量投影方法和Web社区发现方法应用到Web超链接分析中,解决Web结构挖掘中容易出现的“主题漂移”等问题。本文的主要工作及创新归纳为以下三个方面:
(1)利用 Web社区发现技术对基集进行优化,提高基集质量。分析Web页面的超链接结构,筛选出根集Rμ周围与主题相关的节点并添加到基集Bμ中,去掉基集Bμ中的无关页面;之后将Rμ扩展两层,利用最大流Web社区发现算法原理,以Rμ中的节点作为种子节点来发现Web社区。优化操作不仅保证了基集Bμ的质量,而且也降低了算法的运算开销;
(2)页面相似度值的引入。现有的搜索引擎在爬取Web文档,分析每个文档的内容时,会通过计算得到页面与查询主题的相似度值,并与搜索结果一起反馈给搜索用户。因此利用容易取到这些的相似度值来衡量Web页面超链接与查询关键字间的相关程度,能够更有效的区分超链接在Web网络中的地位,且大幅度的降低算法执行时的系统消耗;
(3) 利用空间投影方法的核心思想,构造基于页面相似度值的向量空间。在页面相似度值引入的前提下,以VSM向量空间模型为基础,构建基于相似度值的子空间。通过获取与该空间联系最密切的特征向量来进行投影,投影后获取绝对值最大的特征向量集并进行迭代计算,返回的页面结果集与相似度值高的页面集链接非常密切,有效的解决了“主题漂移”问题。
本文设计了一套系统用于验证改进算法的有效性和可行性。通过实验证明:基于最大流与页面相似度值的HITS改进算法在权威页面主题的相关性、中心页面主题的相关性以及运算开销等方面明显优于传统HITS算法,对于“主题漂移”现象有了很好的抑制效果,同时明显的提高了用户查询的精准度。

在线 客服