当前位置:问答库>论文摘要

问题:

题目:文本检索若干关键问题研究

关键词:文本检索;词语独立性假设;查询扩展;词语语义权重;支持向量机;词语关联度矩阵

参考答案:

  参考解析

随着互联网的快速发展与普及,网络上的各种信息急剧增加,如何有效的开发和利用网络上的海量信息成为非常重要的研究课题。信息检索技术可以帮助人们有效的从网上找到自己感兴趣的信息,帮助用户在日益增多的信息中发现对自己有用的知识。但是,现有基于关键词匹配的信息检索技术的实际效果并不理想,无法满足人们与日俱增的迫切需求。针对这一问题,本文在参考国内外相关研究成果的基础上,围绕文本的形式化表示方法、查询扩展技术、文本相似性匹配策略等影响文本检索性能的关键因素展开了深入的研究,分析了现有技术中存在的不足,提出了更加合理的解决方案,有效的提高了文本检索的性能。主要贡献及创新点如下:1. 提出了一种基于词频分布离散度的词语权重计算方法。文本向量化表示是文本检索技术的前提,词语的加权方案又是文本向量化表示的核心问题。本文针对传统TF-IDF方法中存在的不足,从局部权重与全局权重两个方面对TF-IDF方法进行了改进。在计算词频时,考虑了词语在文本中出现位置的影响,通过词语重要度系数的取值变化体现不同位置的词语对描述文本主题的贡献程度的差别;在计算词语区分不同文本的能力时,采用词频分布离散度来代替逆文档频率,考虑更加全面;使得文本向量中词语权重的计算更加合理。实验结果表明,该方法计算所得的词语权重更加准确的反映了词语在文本检索中的重要程度,优于传统的TF-IDF方法。2. 提出了一种基于词语聚类特征分类的查询扩展方法。查询扩展技术通过各种策略,对用户提供的过于简短的原始查询进行补充,帮助检索系统更加准确的理解用户的检索意图,是一种有效的帮助提高文本检索准确率的手段。传统的查询扩展技术仅仅关心抽取出的一组扩展词对检索性能的整体影响,并不能确定每一个扩展词是否都真正有效。本文通过实验分析发现,传统基于词频分布的扩展词选择标准并不是真正有效;因此,本文直接依据词语对检索结果的潜在影响,选择更加有效的词语聚类特征对候选扩展词进行分类预测,以选出真正有助于提高检索准确率的好的扩展词。实验结果表明,该方法对文本检索准确率的改进优于传统查询扩展技术;同时,由于有效的过滤了更多的无关词语,在检索效率方面也有所提高。3. 提出了一种基于词语关联度矩阵的文本相似度匹配算法。现有文本检索模型大都是基于词语独立性假设的,对文本之间相似度的计算仅仅依据关键词的机械匹配,缺乏对文本的语义理解。词语独立性假设虽然回避了词与词之间关系的复杂计算,大大简化了检索模型,但是它将原本词语之间存在着相互关联的文本表示为由相互独立的词语构成的集合,丢失了许多语法和语义信息,制约了文本检索准确率的提高。本文针对这一问题,提出了一种基于词语关联度矩阵的文本相似度匹配算法。该方法采用词语共现分析这一基于统计的分析方法,对词语间的语义关联关系进行定量分析,为每篇文本建立一个词语关联度矩阵,该矩阵反映了词语之间关联程度的分布情况,能够在一定程度上表示文本的语法结构和语义信息,基于该矩阵对文本之间的相关程度进行度量,能够更加深入的理解文本内容,较之简单的基于关键词匹配的方法更为准确。实验结果表明,在进行文本检索时,该方法能够更加准确的理解用户的检索意图,对检索结果的改进效果优于传统基于关键词匹配的检索技术。

在线 客服