问题:
关键词:命名实体识别;条件随机场模型;特征归纳;贪婪算法
● 参考解析
随着互联网技术的不断发展,互联网已经成为重要的信息源。面对海量的WEB信息,人们仍然面临着知识匮乏的困境。信息抽取技术的出现使得人们能够从信息源中抽取到自己感兴趣的信息,而命名实体抽取技术是信息抽取中关键的技术。由于命名实体是信息的主要载体,所以命名实体识别技术的好坏直接影响着信息抽取效果的好坏,命名实体识别已经成为自然语言处理一个重要研究领域,然而由于国内对命名实体识别研究起步较晚,以及中文自然语言的复杂性,中文命名实体的抽取还处于初级阶段。通过对前人有关命名实体识别研究的总结和分析,提出了基于特征归纳的CRF模型,并用基于改进贪婪算法进行歧义消解,从而提高命名实体识别效果。本文主要工作内容主要分为以下几个方面:(1)研究国内外命名实体抽取方法,分析CRF模型存在的问题。命名实体识别方法主要分为基于规则和基于统计方法两类。基于规则的方法需要人工事先建立抽取规则库,可移植性比较差。基于统计的方法通过建立统计模型,从标注的训练语料库中学习模型所需的参数后自动实现命名实体的识别,常见的有隐马尔科夫模型(HMM),最大熵模型(ME),条件随机场模型(CRF)。HMM有严格的独立假设,ME存在标记偏置问题,CRF模型训练时间成本大,但是克服了前两个方法的缺点并且可以加入任意数量的特征。(2)针对CRF模型训练时间复杂度高的问题,对CRF模型的参数训练方法进行了改进,提出了基于特征归纳的CRF模型,通过特征归纳的方法选取有意义的特征来减少特征个数,从而降低模型训练的时间复杂度。(3)针对命名实体识别中存在的歧义切分问题,提出基于改进的贪婪算法进行歧义消解,并构建了基于改进CRF的中文命名实体抽取的体系架构,并提出采用领域知识库来实现命名实体抽取系统的领域扩展。(4)根据MSRA提供的训练语料库对本文提出的改进命名实体抽取方法的性能进行验证,命名实体抽取结果的 值达到92.76%。通过构建领域知识库将命名实体抽取系统应用于消费品质量安全领域,命名实体抽取结果的 值达到74.40%。
相关内容
相关标签