问题:
关键词:动态规则,数据质量,知识建模,规则学习,数据清洗,数据比对
● 参考解析
随着我国社会信用体系的发展,企业业务系统的办理、个人经济活动的办理、金融机构的业务办理和政府部门的政务办理对信用信息的共享和服务的需求越来越迫切。但是,据调查企业信用信息80%左右分散在银行、工商、税务、海关、公安、司法、财政、审计、质监、证券监管、环保等政府部门手中。如何把这些分散的企业信用信息进行整合汇总,并为各个部门都共享,实现部门间信用信息的集成和互联,实现部门间信用数据共享和重复利用,最终达到信用信息资源的交换和共享的目的,已成为一个十分重要的问题。面对这个问题,本文主要从数据清洗、数据比对和知识建模的角度加以探讨。
第一,提出了一个灵活的、可扩展的、动态的数据共享模型。模型共分三部分:清洗模型、比对模型和共享引擎。共享引擎先通知清洗模型获取用户的动态清洗知识信息;然后通知比对模型获取用户的动态比对知识信息;共享引擎负责收集动态生成的清洗知识信息、比对知识信息并执行清洗算法和比对算法,最终形成信用的共享数据。
第二,考虑到当前清洗工具缺乏灵活性、可扩展性和高效性特点,提出了一个基于知识建模的清洗模型。模型分三部分:规则学习模型、数据学习模型和判重学习模型。规则学习模型实现动态规则和数据质量问题的关联对应,形成规则信息;数据学习模型实现动态数据信息的初始化,形成初始化数据信息;判重学习模型实现动态记录聚类学习和类别反馈学习的关联对应,形成最佳的分类信息,然后进行窗口排序学习,进行具体判重。清洗引擎读取规则信息和数据信息执行清洗算法,然后读取分类信息执行判重算法。对该模型的应用有效地提高了当前清洗工具的灵活性、可扩展性和高效性,并保证了动态数据的质量。理论和实践证明利用该模型建立了一个通用、灵活和可扩展的清洗工具。
第三,相似重复记录的清除是数据清洗领域的核心问题,但如何实施有效的相似记录清除一直是研究的难点。基于此,提出了一种通过建立聚类反馈模式规约来验证相似重复记录的有效性方法。依据经过聚类后各个类别间的关联性关系分析,首先提出了聚类模式和反馈模式的概念和实现方法;然后给出了数据清洗中聚类反馈模式规约;最后通过使用聚类反馈模式规约应用具体实验验证了它的有效性。
第四,给出了一个基于知识建模的数据比对框架。框架分三部分:比对规则学习、比对数据学习和比对引擎。比对规则模型实现比对规则和比对问题的关联对应,形成动态比对规则信息;比对数据学习模型实现动态基准数据信息的初始化,形成基准数据信息;然后比对引擎读取比对规则信息和基准数据信息执行身份一致性比对和数据一致性比对;最后通过实验验证了该模型的时间和质量性能。
第五,提出了数据清洗算法和数据比对算法。数据清洗算法包括属性清洗算法和记录判重算法。属性清洗算法实现脏数据的检测、清除和修复;记录判重算法实现重复记录的识别、合并和删除。数据比对算法包括基准数据比对算法和非基准数据比对算法。基准数据比对算法按照基准比对规则实现基准部门数据信息的录入和匹配,形成数据比对的标准信息;非基准数据比对算法依据比对标准信息和比对规则实现非基准部门数据信息的比对和录入,最终形成基准部门和非基准部门的共享数据。
相关内容
相关标签