问题:
关键词:主题爬虫、最好优先算法、本体、遗传算法
● 参考解析
随着互联网的逐渐扩张和网络信息量及种类的迅速增长,从中获取全面而准确的特定领域相关知识就变得越来越困难。在此情况下,用来获取网络特定领域信息的主题爬虫技术(Topical Web Crawler)近些年得到了更多的关注和发展。主题爬虫技术不但可以用于专业搜索引擎的网络信息采集,还可以应用到数字图书馆等很多其他领域当中。因此,对主题爬虫技术的研究,具有重要的学术意义和广阔的应用前景。主题爬虫的目的是寻找、收集、更新和维护特定主题的网页,其提供的搜索服务满足了许多特定用户的要求,更是满足了用户对专业领域信息的查询需求。主题爬虫的相关研究涉及了人工智能、自然语言理解、网页可视化、语义网络等诸多方面,对以上任一方面技术的改进都能使主题爬虫的效果有所提高。
本文首先介绍了主题爬虫技术的研究背景和意义,指出了主题爬虫技术的国内外研究现状。在此基础上,阐述了主题爬虫的工作原理,归纳了主题爬虫的关键技术和关键算法,并比较了算法的优缺点。随后介绍了主题页面的分布特征,本体的定义和分类,构造领域本体的原则和步骤,并且还介绍了本体构建语言OWL和本体构建工具Protégé,重点用Protégé软件构建了一个基于《教育部公文主题词表》的领域本体。接下来,在传统的主题优先爬行算法的基础上,提出了基于本体的改进主题优先爬行算法,该算法是将与主题无关的链接并不马上抛弃而是作进一步处理:对相关领域知识建立本体模型,利用该模型对这些主题无关链接再进行基于本体的主题相关性判断,即看是否属于与待搜索主题有联系的其他主题,将这些本体相关的链接放入另一个待爬行队列进行爬行,抛弃那些既与主题无关又与本体语义无关的链接。结果表明,该算法可以有效地提高主题资源的覆盖率,并且有效地解决了传统算法无法穿过隧道的问题。最后,在分析现有主题搜索策略的基础上,提出了基于遗传算法的主题爬虫,该算法扩大了相关网页的搜索范围,提高相关信息的查全率。
相关内容
相关标签