本书由知名的计算机科学家Bill Inmon撰写,是一本介绍数据湖的书。本书讲述了如何构建一个有用的数据湖,非常适合数据科学家、数据分析师来参考。通过阅读本书,读者可以解决很多工作当中遇到的大数据问题,并且了解数据湖的使用和架构。
众多公司花费了大量的时间和金钱获取数据,并将大量的数据保存在一个叫做数据湖的数据容器中。但是,其中又能有多少公司把数据从数据湖中取回并加以利用呢?事实上,很少有公司能把数据湖当成信息的金矿来使用。多数公司得到的仅仅是一个垃圾场。
本书将会告诉你如何去构建一个有用的数据湖,从而让数据科学家与数据分析师能够面对业务挑战并发现新的商机。
通过阅读本书,你将能够学习如何:
构建数据湖并模拟数据;
应用数据及基于文本的数据池,从而将业务价值化;
理解原始数据池的角色定位;
掌握使用归档数据池的时机;
利用4大核心组件:元数据、业务的整合对应,语境及元过程信息。
本书的作者曾经让我们放眼于数据仓库的架构与成效,如今他又将我们带入到数据湖架构的新高度。
在错误的方向上,我们耗费了数年时间,花费了上百万美元,但是,我们是不是可以省出一点儿时间和金钱用到正确的方向上来呢?
如今,众多公司正在疯狂地建设数据湖泊—一种大数据狂热的副产品。有朝一日,这些公司幡然醒悟,发现他们根本不能从数据湖中攫取出任何有用的东西。即便真的从数据湖中找到了一丁点儿有用的信息,起码也要经历呕心沥血的努力。
他们花费了巨额的资金和大量人年(man years)的努力,却只换回了昂贵的累赘。
终有一天,这些企业会惊觉于他们所建造的不过是一个“单向”的数据湖。数据被引入数据湖,却产生不了任何东西。在这种情况下,数据湖不会比垃圾场好到哪儿去。
这本书就是写给那些想要建造数据湖,并期望能够从中获得价值的机构。数据湖中当然有业务价值,但前提是建造得法。如果你正打算建造一个数据湖,那么你最好把它建造成公司的一项重要资产,而不是累赘。
本书探究了为什么众多公司在从他们的数据湖中获取数据时会面临如此艰难的困境。关于这个重要问题有数种答案。其中一个原因是,数据被不加区别地一股脑地打包丢入数据湖中。第二个原因是数据没有被整合起来。第三个原因是数据是以文本化的形式保存的,而你没办法轻易地分析文本数据。
本书建议要以高层(high level)的视角来组织数据,整合数据,“调校”数据,其目的就是使调整后的数据能够成为用于分析和处理的基石。数据湖当然可以成为公司的良性资产,但前提是在构建数据湖时要足够谨慎,并深谋远虑。
数据湖需要被划分成几个被称为数据池(data pond)部分,它们是:
? 初始数据池(Raw data pond);
? 模拟信号数据池(Analog data pond);
? 应用程序数据池(Application data pond);
? 文本数据池(Textual data pond);
? 归档数据池(Archival data pond)。
在创建之后,数据池需要经历调整过程,使数据容易访问,以便进一步加以利用。举例来说,模拟信号数据池需要对数据进行缩减(reduction)和压缩。应用程序数据池需要让数据经历经典的ETL整合。文本数据池则需要对文本进行消歧,以便使文本可以规整成一致的数据库结构,这样,文本所在的语境就可以被识别出来。
一旦数据池中的数据经历过算法的调整,那么该数据池就可以作为基础,为分析和处理流程提供服务。一旦数据湖中的数据被区划成不同的数据池,并且数据在池中经历了调整,那么这些数据池就会成为公司的资产,而不是负累。此外,当数据走完了它在数据池中的生命周期,它就会被移入归档数据池。
这本书是写给管理者、学生、系统开发人员、架构师、程序员以及最终用户的,并希望能成为那些想把数据湖打造成公司资产而非负担的机构的指导手册。
收起全部↑
Bill Inmon,是“数据仓库之父”,他著有57本书,并以9种语言在全球出版。Bill最近的创举是建立了叫做“文本消歧”的技术,这项技术能以叙述性格式读取初始文本,并能够将文本置于常规的数据库中,以便使用标准的分析技术进行分析处理,从而为大数据/非结构化数据创造独特的业务价值。Bill曾被《计算机世界杂志(ComputerWorld)》评选为“历史上对计算机行业影响的十个人之一”。Bill住在美国科罗拉多州的堡石城(Castle Rock)。关于文本消歧的更多资料,请访问 www.forestrimtech.com。