问题:
关键词:Web数据挖掘;特征构建;知识图谱;关联网络;社区发现
● 参考解析
在如今的信息时代,互联网无疑已经成为了人们发布和获取信息的最主要渠道之一。网络上每天都发布大量的新闻报道,而如何能够从海量数据中收集、处理、分析并利用针对某一特定事件的新闻报道,是一个值得研究的问题。以突发事件为例,在其发生、发展的过程中在网络上会出现大量的相关信息,这些Web信息中往往蕴含着一定的能够反映事件特征及发展态势的规律,如果能够发现这些规律,则能够为突发事件应急措施的及时制定及监管工作的更好开展发挥积极的辅助和促进作用。本研究以此为出发点,以Web信息为研究对象,以关联网络分析与主题社区发现为方向开展了如下几项研究:首先,进行了针对某一特定事件的Web新闻关键词抽取与主题特征构建。引入了一种基于位置重要性的关键词抽取算法以及一种事件主题特征构建机制,应用甲流新闻数据进行了实验,得到主题特征词表,并为后续的工作打下了基础。其次,进行了基于共词分析的Web信息关联网络知识图谱构建。该部分创新性地将在科学计量学这门学科中主要应用的经典理论方法——知识图谱和共词分析应用到Web数据挖掘领域中,用形象直观的方法构建了甲流事件主题特征词关联网络,对特征词的重要程度进行了定量分析与比较。第三,进行了Web信息关联网络社区发现与主题社区分析。该部分在前面研究中构建的关联网络的基础上,引入了用于发现重叠社区的派系过滤算法,进行了关键词关联网络的社区发现;然后引入时间变量,比较了同一事件Web信息在不同时间段的关联网络社区发现情况,以此对事件的主题演化情况进行了分析。本文所开展的研究,为网络数据向网络信息的转化提供了一种可行的思路和方法,即如何利用多种手段对Web信息进行系统地挖掘和分析。另外所得到的结果和结论也能够为突发事件的检测、跟踪和监控提供理论和实践依据,同时,也可以辅助网络新闻监管及掌握网络舆情发展态势,具有一定的现实意义。
相关内容
相关标签