基于大数据实现建模或画像需要通过专门的数据源以及互联网获取多种形式的数据才能完成。数据源多样化给数据带来了数据统一表达、数据规格化、降维等一系列问题。本书将深入研究互联网大数据的特点, 研究数据预处理、约简、降维、用户建模等问题, 探索在互联网大数据环境下的用户准确画像等问题。
本书围绕多源异构数据的处理与应用展开,系统地阐述了互联网时代对于多源异构数据处理的重要意义,全面、客观地叙述了对多源异构数行处理的相关技术,详细地分析了多源异构数据的主要应用场景。可为相关领域的学生、项目开发人员及科研人员提供必要的理论参考。
全书共分八章,其中第pan>章绪论主要介绍多源异构数据处理的相关研究现状、预备知识、传统数据与多源异构大数据的区别。第2章网络用户特征分析的创新驱动力——互联网大数据主要介绍大数据的来源与价值、大数据带来的挑战和机遇、多源异构大数据用户建模特点及优势。第3章数据预处理主要介绍数据预处理的目的和意义、原始数据的基本特征、数据预法及应用。第4章用户特征指标设计主要介绍用户画像问题概述、用户画像与大数据的关系、用户画像模型构建等内容。第5章多源异构数据的约简问题主要介绍互联网多源异构数据约简的必要性、数据约简的主要方法、基于粗糙集的多源异构数据约简及应用。第6章多源异构用户大数据建模介绍数据建模技结、用户数据建模的主要方法。第7章多源异构数据的企业级应结若干种多源异构数据建模的应用场景。第8章多源异构数据在个人信用评估中的应用以信用评估为例,展示了多源异构数据处理与建模的一个完整应用流程。
本书由何志强、崔新会、湛维明、聂燕敏、申晨、裘咏霄、柳凌燕参与。
具体分工为:崔新会负责第pan>、2章,聂燕敏负责第3章,申晨负责第4章,湛维明负责第5章,裘咏霄负责第6章,何志强负责第7章,柳凌燕负责第8章。全书由何志强完成统稿和审阅。本书的撰写受河北金融学院科研和智慧金融应用技术研发中心支持。
由于时间仓促,不妥之处欢迎读者批评指正。
何志强,男,1977年生人,教授,CCF计算机应用专业委员会执委,CCFYOCSEF保定分论坛AC委员,河北省计算机学会常务理事年来共文30余篇,出版著作2部,主要研究方向为多源异构大数据技术、网络技术、信息等。
第pan>章绪论
1.pan>研究背景和意义
1.2国内外研究现状
1.3预备知识
1.4传统数据与多源异构大数据
1.5本书的研究工作和组织结构
第2章网络用户特征分析的创新驱动力——互联网大数据.17
2.pan>研究动机
2.2大数据的来源与价值
2.3大数据带来的挑战和机遇
2.4多源异构大数据用户建模特点及优势
第3章数据预处理.
3.pan>数据预处理的目的和意义
3.2原始数据的基本特征.
3.3数据预法及分类
3.3.pan>数据预处理的分类.
3.3.2数据预法简介
3.4数据预处理技术
3.4.pan>数据集成
3.4.2数据集成.
3.4.3数据变换,
3.5降维问题..
3.6案例分析.
3.6.pan>案例一:软件工程师求职信息挖掘
3.6.2案例二:银行客户精准营销案例
3.6.3案例三:客户分类案例.
3.7本章小结
第4章用户特征指标设计
4.pan>用户画像问题概述
4.1.pan>用户画像的概念
4.1.2用户画像的作用
4.2用户画像与大数据的关系
4.3用户画像的指标参数
4.3.pan>按照用户反馈类型分类
4.3.2按照指标的属性分类
4.4基于属性约简的指标体系优化方法.
4.4.pan>属性约简对于指标体系优化的意义.
4.4.2属性约简的一般方法
4.4.3指标体系优化方法
4.4.4数字图书馆用户指标体系优化实例.
4.5本章小结
第5章多源异构数据的约简问题
5.pan>研究动机.
5.1.pan>互联网多源异构数据约简的必要性
5.1.2个人多源异构数据建模下的信用数据特征
5.1.3企业多源异构数据建模下的信用数据特征
5.2数据约简的主要方法
5.2.pan>多源异构数据约简的意义
5.2.2多源异构数据约简的分类
5.2.3基本的数据约简算法
5.3基于粗糙集的多源异构数据约简
5.3.pan>经典粗糙集模型
5.3.2基于粗糙集模行属性约简的主要方法
5.3.3基于粗糙集信息熵模型的数据约简方法及其应用....115
5.3.4粗糙集属性约简法的优缺点
5.4小结
第6章多源异构用户大数据建模
6.pan>数据建模
6.1.pan>线性回归
6.1.2非线性回归分析
6.1.3小二乘法
6.1.4主成分分析法
6.1.5K-means算法
6.1.6决策树算法
6.1.7ID3算法
6.1.8神经网络算法
6.1.9BP网络模型
6.2用户数据建模.
第7章多源异构数据的企业级应用
7.pan>相关支撑架构的变化
7.1.pan>传统的企业级数据处理技术——数据仓库
7.1.2现在及未来的企业级数据应用架构
7.2多源异构数据的企业级应用
7.2.pan>多源异构企业级应用pan>——企业决策支持应用
7.2.2企业级应用2——科技型企业投资价值分析
7.2.3多源异构大数据在解决科技型企业融资风险中可发挥的作用
7.2.4多源异构大数据在B2B企业信用评价中的应用…..174
7.2.5多源异构数据在投资舆情分析中的应用.
7.3本章结论及展望
第8章多源异构数据在个人信用评估中的应用
8.pan>个人信用评估相关理论概述
8.1.pan>个人信用的基本含义
8.1.2个人征信的基本含义
8.2国内外个人征信体系发展概述
8.2.pan>美国个人征信体系发展概述
8.2.2欧洲个人征信体系发展概述。
8.2.3日本个人征信体系发展概述
8.2.4我国个人征信体系发展概述
8.3国内外个人信用评估研展
8.3.pan>个人信用评估的基本流程
8.3.2国外个人信用评估方法研展。
8.3.3国内个人信用评估方法研展。
8.4基于多源异构的个人信用评估的指标体系研究与构建.….
8.4.pan>个人信用评估指标体系中多源异构数据的采集...2
8.4.2基于多源异构的个人信用评估指标体系构建原则 3
8.4.3影响个人信用的因素分析
8.4.4基于多源异构的个人信用评估模型研究
8.4.5多源异构个人信用评估的发展方向.
参考文献.
第pan>章绪论
1.pan>研究背景和意义
大数据已经成为目前各行各业的热词,多源异构这一名词也随着大数据应用的深入频繁出现在各个领域的创新中,时下几乎成为与创新捆绑的关键要素。多源异构大数据真正的含义是什么,大数据具有什么样的特性,以及给行业应用创新带来了哪些机遇,我们又当如何利用大数据的价值等问题已经摆在我们面前。是随着数据融合的需求和发展趋势愈发显著,需要很多在传统应用中相对独立的信息子系统之间的融合,期间面临数据格式多样性、非结构化数据采集、数据融合等问题,以及数据融合后的应用创新等。因年来多源异构数据融合及利用成为数据行业研究与应用的热点问题。
过去的30年中,信息技术应用从世纪80年代起步,到90年代到2pan>世纪初期的快速发展,再发展到如今渗透到了社会的各个角落。在这一发展过程中,随着信息设备和信息应用软件的多样化,人类社会产生数据的方式和数量均发生了日新月异的变化。信息技术发展起步阶段,信息的产生主要依赖人工以及小型业务数据库,甚至数据库之间的联网共享都很难做到;90年代以后,随着局域网技术的成熟,园区网快速推广和互联网接入技术的快速变革,加上万维网技术了用户交互的快速发展,数据的累积速度显著加快,基于业务的信息互联成为这一时期数据产生的主要驱动力,使信息互联的方式得到了极大的改变,10年间,移动互联网、物联网的广泛应用和人工智能技术、并行计算处理技术的快速发展,人类产生数据无论是维度、复杂度还是数量均有了很大的提高,这既给数据处理带来了挑战,同时也为数据的深度融合与应用带来了的机遇。
大数据处理和分析技术随之成为信息技术领域的研究热点,以云计算为代表的海量异构数据处理技术得到了快速发展,数据处理能力的给数据端系统的应用创新提供了更大的空间,并且随着研究的深入,技术步又反过来带来了新的数据产生方式和驱动力。例如以智能手机代表的移动互联网,应用的深入发展一方面催生了应用的创新,出现了大量的以电子商务、社交、支付、垂直领域创新为代表的新应用,而与此同时应用创新也在反过来推动信息采集和数据分析需求的快速发展,是在电商、支付、兴趣点等领域,在移动互联网的支持下,信息的透明度在不断加强,深层次的商业价值和更加人性化的服务挖掘已经成为可能;再例如LBS应用从起初的位置搜索、导航应用逐步向商业信息推送与精准营销、社交网络等很多领域渗透,随之带来的就是纯位置数据已经无法满足LBS应一步发展的需要,而是需要融合更多种类的用户数据才能达到更高的分析度,从而发掘其中的应用和商业价值。
可见,在大数据条件下实现数据分析与挖掘,推动应用向更深层次发展,其研究的关注点已经从传统的强关联数据逐步向更多数据源及其产生的弱关联数据拓展。更重要的是,基于移动互联和物联网技术采集的网络用户数据,具有相当高的客观度,能够基于这些数据实现用户特征更加客观的刻画,这一点为未来大数据的深度应用带来了巨大的发展空间。多源异构数据在全、生物、等领域已经有了初步应用,证明了多源异构数据融合对于提高推演结论的度的有效性。在经济金融领域,随着金融信息科技的快速发展,充分利用金融大数据开展金融应用创新成为金融行业未来的发展突破口,例如传统商业银行除了纷纷推出网上银行之外,在网店业务创新、创新理财产品、营销、对公业务、产品营销等很多方行了创新,这些创新均有大数据技术和人工智能在背后的支持几年得到快速发展的互联网金融更是金融和信息深度融合的发展成果,随期互联网金融发展从粗放增长向理性的转变,创新产品开发和风险控制成为互联网金融向更深层次发展的必由之路;此外,工业界出现了工业4.0、工业互联网、智能制造、管控一体化、人机一体化等各种基于大数据、互联技术的变革概念,已经在工业生产领域产生了显著的作用,我国也在的下在多家制造企业实施了智能制造试点项目。