本书肇始于2012年。当时,主流机构正在探讨Hadoop,我们也相信信息架构将会迎来变革。多年以来,商业智能和分析解决方案的重点一直放在企业数据仓库和数据集市,以及对其中的数据进行定义、填充和分析的最佳实践上。结构化数据的最优关系数据仓库的关系型数据库设计以及数据库的管理已成为许多此类研究工作的重点。然而这个重点也在发生变化。
在解决商业问题的过程中,流数据源首次被认为可能具有十分重要的意义。人们通过实验来探索这些数据,希望发现其潜在的价值。而不幸的是,许多努力都付之东流。笔者之所以敏锐地意识到了这一点,是因为我们曾应多家机构之邀提供过一些建议。
我们承认,确实有一些机构成功地分析了新数据源。但退一步来看,我们发现,它们之所以成功,是因为有一种新兴的共通模式。在大数据计划开始之前,这些机构的利益相关者就已经形成了关于新数据将会如何改善商业决策的理论。所以,在构建原型时,它们能够很快证明或驳斥这些理论。
但这种成功的方法并不是全新的。事实上,很多机构在成功开发对其业务运营至关重要的数据仓库、商业智能和高级的分析解决方案时采用了相同的策略,这是其经营业务的关键。在本书中,我们描述了一种取得成功的方法:分阶段法。我们会在不同章节中分别介绍这种方法的各个阶段,并介绍如何在大数据与物联网项目中应用这种方法。
早在2012年,我们就已经开始记录这种方法了,并把那些在向客户提供意见时已经证明十分有用的工件汇集起来,而不考虑其技术覆盖。此后,我们与甲骨文企业架构(Oracle Enterprise Architecture)社区、系统集成商及客户一起测试并完善了这一方法。
有时,这种方法会将我们导向对传统技术覆盖的推荐。然而,新数据源往往需要引入Hadoop和NoSQL数据库解决方案。我们已经看到,物联网应用也在日益迈开新的脚步。所以,我们希望有待解决的数据源和商业问题能推动架构的发展。
我们的工作进行了大约两年,我们注意到,尽管许多书籍都描述了大数据与物联网项目背后的技术组件,但却很少涉及如何评估和推荐与一个组织的信息架构或与业务需求相一致的解决方案。所幸,我们在Apress出版社的朋友与我们不谋而合,看到了市场对此类图书的需求。
本书不能取代您书架上收藏的对可能成为未来状态信息架构的一部分的组件有详细描述的技术文献。因为这并非本书的意图。(当然,有时我们也会向企业架构师咨询哪些组件是相关的并且数量能快速发展到数以百计。)
我们的目的是向您提供在未来状态信息架构中,组件应该如何组合在一起及其原因的坚实基础。我们会带您了解一种方法,这种方法可以建立有关未来足迹的愿景,收集业务需求、数据和分析需求,评估技能,确定所需的信息架构变化,以及界定路径图。最后,我们为您提供了在实施期间需要考虑的方面的一些相关指导。
我们相信本书大部分内容对企业架构师均具有指导价值。另外,我们认为,对于在IT和业务部门中工作,且希望在这些项目中取得成功的人而言,本书也将是一项宝贵的资源。
我们的首要目标是助您成功,希望此书能帮助您实现目标。
罗伯特·斯特科维卡,是甲骨文公司信息架构和大数据副总裁。他的架构师及专家团队专注于大数据(包括Hadoop和NoSQL数据库)、预测性分析、数据仓库、商业智能和信息的发现。
该团队与正在实施这些技术,并探索新的解决方案(如由物联网驱动的)的公司进行合作。罗伯特·斯特科维卡曾在世界各地的会议上发言,并共同撰写了许多关于数据管理和商业智能的书籍,包括五个版本的《甲骨文要点》(奥锐利媒体)、《甲骨文大数据手册》(甲骨文出版社)、《用甲骨文数据库云服务器exadata实现极限性能》(甲骨文出版社)、《甲骨文数据仓库和商业智能解决方案》(威利)。
本行业的当前业务状况
在制定未来信息架构时,了解行业的趋势以及佳的竞争对手正如何重新调整他们的信息架构以解决这些趋势也非常重要。要记住,大数据与物联网的引进在很多行业内正导致重新定义竞争对手是谁。一些组织正选择根据以新的方式理解数据的能力进入其他行业,从而使新的企业进入点和解决方案成为可能。
具影响力的信息架构项目总是与解决具体的企业难题有关。以下是一张传统数据仓库项目和信息架构拓展以包括Hadoop和/或物联网的项目的按行业划分的示例列表。这份列表可能会给您一些关于各领域的想法,让您可以探索这些领域,寻找与您组织的商业目标结合时能对投资产生重大回报的新项目:
农业:
数据仓库:农产品和优化成本、产量分析、农产品商品定价/贸易分析。
Hadoop/物联网:耕作模式、施肥、收割成熟度和含水率(来自田地里的传感器和气象数据)的分析和优化。
汽车制造:
数据仓库:生产成本和质量、供应链分析、保固分析、销售和市场营销分析、人力资本管理。
Hadoop/物联网:客户情感分析和车联网\[包括组件故障、服务和服务日常安排的需求、驾驶记录(包括自动化汽车)和司机紧急检测和反应\]的分析。
银行业:
数据仓库:金融产品渠道的顾客单一视图、金融分析、欺诈检测、信用价值、人力资本管理、房地产管理和优化。
Hadoop/物联网:欺诈检测、风险分析和客户情感。
通信:
数据仓库:定价策略和资金、客户支持与服务、市场营销分析、供应链、物流与流程优化、法律合规性、房地产优化和人力资本管理。
Hadoop/物联网:对社会数据、移动设备使用、网络质量与可用性(使用传感器)、网络欺诈检测的分析,和对物联网中拓展物联网管理和优化的分析。
消费性包装产品:
数据仓库:对销售、市场营销、供应商、制造、物流、客户趋势和风险的分析。
Hadoop/物联网:对推广效果(通过社会媒体和商店内传感器)、供应链、运输期间制成品的状况、零售中的产品放置和风险的分析。
教育和研究:
数据仓库:对院校或设施、员工与人力资本管理,以及校友档案与捐赠模式的金融分析。
Hadoop/物联网:对风险学生(使用传感器数据)、来自传感器的研究数据、设施监控和使用优化的分析。
医疗保健付款人:
数据仓库:对护理成本、护理质量、风险与欺诈的分析。
Hadoop/物联网:对投保客户情感的分析和对风险与欺诈的分析。
医疗保健提供者:
数据仓库:护理成本分析、护理分析质量、员工与人力资本,以及风险。
Hadoop/物联网:疾病与流行病模式研究、患者监控、设施监控与优化、患者观点分析,以及风险分析。
高科技与工业制造:
数据仓库:供应商与分销商分析、物流管理、生产质量与保固分析。
Hadoop/物联网:车间的生产和质量分析,子装配分析的质量,产品故障与待处理故障分析以及自动化服务要求。
保险(财产保险与人身保险):
数据仓库:销售与市场营销分析、人力资本分析,以及风险分析。
Hadoop/物联网:客户情感分析与风险分析。
法律实施:
数据仓库:物流优化、犯罪统计分析,以及人力资本优化。
Hadoop/物联网:威胁分析(来自社会媒体和视频捕捉识别)。
媒体与娱乐:
数据仓库:对查看者的偏好、媒体频道流行程度、广告销售,以及市场推广的分析。
Hadoop/物联网:查看习惯分析(来自机顶盒)、对娱乐场所的客户行为的分析,以及客户情感分析。
石油与天然气:
数据仓库:钻井勘测成本分析、潜在勘测地点、生产、人力资本及物流优化。
Hadoop/物联网:钻探传感器分析(故障预防)。
药品:
数据仓库:临床试验(包括药物相互作用研究)、被试者成果分析、研究与生产财务分析、销售与市场营销分析,以及人力资本分析。
Hadoop/物联网:对来自传感器、社会习惯与疾病追踪(来自社会媒体),以及基因组研究的临床研究数据的分析。
零售:
数据仓库:市场购物篮分析、销售分析、供应链优化、房地产优化,以及物流及分销优化。
Hadoop/物联网:全渠道分析和客户情感分析。
运输与物流:
数据仓库:设备、人员物流与路线,销售与市场营销分析,房地产优化,人力资本分析与优化。
Hadoop/物联网:交通优化(来自高速公路传感器)、交通安全分析与控制、设备性能与潜在故障分析(来自车载传感器)、物流管理(来自传感器),以及客户情感分析。
公用事业:
数据仓库:物流优化、电网电能输送分析与优化、客户能量使用,以及人力资本分析与优化。
Hadoop/物联网:为电网优化和状态而对来自智能仪表数据的分析,主动维护优化。
……