《基于网络大数据的社会经济监测预警研究》针对网络大数据具有时效性强、分布范围广的特点,提出一个基于网络大数据的社会经济监测预警的研究框架,对网络大数据进行深入分析和挖掘,在此基础上就社会转型中的社会经济关键指标进行实时监测和智能预测,为政府和相关管理部门提供有效的分析工具与决策支持。《基于网络大数据的社会经济监测预警研究》结构完整,思路清晰,语言流畅,是网络大数据应用于社会经济预测的首本专著,同时也是大数据分析和监测预警等相关领域不可多得的一本体系性参考书。
《基于网络大数据的社会经济监测预警研究》可供从事预测科学、监测技术和大数据应用研究的科研人员,政府有关决策和管理部门的工作人员,金融公司、电子商务企业等的从业人员参考,也可供高等院校管理学院、信息学院、金融学院等相关专业的师生阅读。
更多科学出版社服务,请扫码获取。
《基于网络大数据的社会经济监测预警研究》:
2.4.2网络大数据挖掘的定义
最早的网络数据挖掘概念是由OrenEtioni于1996年提出来的,他认为网络数据挖掘是数据挖掘技术在网络上的应用,这项技术综合了数据挖掘、网络、计算机技术、信息技术等诸多领域,是一种综合性的数据挖掘技术。
国内外专家学者对于网络数据挖掘的定义也是众说纷纭,《基于网络大数据的社会经济监测预警研究》选取一个认同率较高的定义:网络数据挖掘就是指从大量网络数据集中找到隐藏的信息,如果将大量网络数据作为这一过程的输入,将隐藏信息作为这一过程的输出,则整个网络数据挖掘过程就是从输入到输出的一个映射,即从大量网络数据集到隐藏信息的一个映射。
网络数据挖掘是数据挖掘的一个重要分支,但是相比于数据挖掘,网络数据挖掘有着一些特殊之处。
首先,网络数据挖掘的对象是大量的网络数据集,这些数据集大多是文档形式,而且具有异质性及分散式的特点,如服务器上保存的日志文件、用户发生行为留下的个人信息等,处理起来比传统的数据挖掘更加困难。
其次,从逻辑上来讲网络可以看做一个文档节点以及节点间的链接构成的图,因此通过网络数据挖掘可能会得到网络内容,也可能会得到网络结构,具有一定的不确定性。
另外,网络数据本身不是结构化的(机器不容易理解),但是传统的数据挖掘是基于结构化的数据进行的,是建立在关系数据库的基础上的。因此,有些时候数据挖掘技术与网络数据挖掘技术并不通用,即便要用也需要预先对网络数据进行处理,使其转化为传统数据挖掘技术可用的结构化数据结构,这也是网络数据挖掘技术的发展方向之一。
由于数据不断增长,类型不断复杂,网络数据具有了大数据特征,这时的网络数据挖掘已成为网络大数据挖掘了。2.4.3网络大数据挖掘的分类由于网络上的数据具有多样性的特征,所以在进行网络大数据挖掘时所面临的任务也是多种多样的,这里我们根据网络大数据挖掘的对象不同进行分类,网络大数据挖掘技术可以分为三类,即网络结构挖掘、网络内容挖掘和网络应用挖掘。
网络结构挖掘技术是指在挖掘过程中关注网络上隐含的链接结构,根据网络结构之间的关系(如链接间的关系与组织结构)得到隐含信息的过程。这种方式通过分析网页之间的某个链接及与这个链接相关的网页数和相关对象,建立起一个网络链接结构模型。网络结构挖掘可以用来对网页进行分类,从而进一步得到网页之间的相关联程度及近似程度,同时还可以帮助用户快速地找到与自己相关的网页。前文已经说过,逻辑上网络可以看做一张图,一张庞大的有向图。每个网络网页就是图中的一个节点,而页面之间的链接就是图中的边,可以是单向的,也可以是双向的。这样我们可以很方便、快捷地找到一个节点到另一个节点的最短路径,应用到现实生活中就是可以花费最小的时间和精力从一个页面访问另一个目标页面。
网络内容挖掘技术是指对页面的本身内容进行挖掘,页面内容的主要形式有文本、图片、多媒体音响等,我们要从多种形式的内容中挖掘出有价值的信息。目前,广泛应用的一些搜索引擎与推荐系统都是网络内容挖掘技术的现实应用,这些应用都是帮助用户从大量数据中快速找到自己需要的信息。网络内容挖掘技术的关键是对网络页面的分类及聚类。分类是指网络页面具有不同的特征,我们根据这些特征将网络页面划分为不同的类别;聚类是指,由于不同类别的网络页面之间或多或少都有着某种联系,我们将这些页面聚合到一起,形成不同的簇,尽可能使得同一个簇内的网络页面有着最为相近的内容,而不同簇之间的网络页面内容没有多大的相近性与关联度。
……