本书由“数据仓库之父”Inmon和“Data Vault之父”Linstedt领衔撰写,带领读者从宏观视角了解数据架构的基本概念和原则,是数据科学家、分析师和管理者在入门阶段的必备参考读物。本书创新性地提出终端状态架构的概念,新增了关于可视化和大数据的章节,以及文本管理和分析等来自不同行业的实例。通过阅读本书,读者将通晓数据收集、治理、提取、分析等不同阶段的核心技术,进而学会将大数据技术融入现有的信息基础设施或数据仓库系统。
献 词
我要将本书献给下面的医生和医院,是他们救了我的命。
如果没有这些医生和医院,没有他们的精细护理,这本书永远不会写成。他们是:
科罗拉多州丹佛市玫瑰医院
科罗拉多州丹佛市国立犹太医院
玫瑰医院Christopher Stees医生
玫瑰医院Peder Horner医生
玫瑰医院Michael Firstenberg医生
玫瑰医院Ryan Tobin
国立犹太医院Susan Kotake医生
国立犹太医院Ellen Volker医生
以及所有的护士和其他工作人员,由于人数太多,原谅我无法一一列举出来。
谢谢,谢谢,谢谢!
WHI
2019年2月
译 者 序
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”确实,数据已成为21世纪的“石油”,成为世界上关键的战略性基础资源。大数据的概念从2012年起进入大众视野,近几年来受到了越来越多的关注。特别是2020年全世界爆发新冠疫情以来,大数据科学家应用大数据技术对不同地区的人群感染新冠病毒的数量进行预测,帮助相关部门对疫情进行防控,让人们进一步意识到开展大数据研究的重要意义。本书为数据科学家未来从事大数据研究提供了全新的视角。
大数据是人工智能的重要基础,人工智能反过来也拓宽了对大数据的数据量和数据种类的需求。为了获得更高的智能,需要对已有的数据采集、数据清洗、数据过滤和数据分析等相关算法及理论进行优化,或者开发设计出新的算法,探索新的理论。大数据与人工智能之间的关系是相互依赖和相互促进,同时,人工智能对数据架构的理论提出了更高的要求。
本书从数据架构的角度描述数据,从不同数据背景的角度介绍数据,并利用不同行业的大量实例和案例研究,为数据科学家提供必要的知识。结合这些行业的实例,数据科学家将从整体的角度对数据有更全面、更清楚的认识。本书提出了终端状态架构的概念,帮助读者更宏观地把握数据收集、治理、提取、分析等不同阶段使用的不同技术。本书还对数据的商业价值、数据管理和数据可视化等进行了综合介绍,帮助数据科学家更全面地认识数据处理,为大数据未来的技术和理论发展提供新的思路。
数据科学是一个正在蓬勃发展的领域,也是一种正在改变世界和影响日常生活的技术。虽然我们开展了很多相关领域的研究和探索,但在翻译的过程中依然感到本书涉及面广,涵盖内容多。为此,我们力求准确反映原书所表达的思想、概念和技术原理,希望能对相关的研究人员、技术人员和学生有所帮助。但受限于译者的学术和技术水平,翻译中难免有错漏或瑕疵,恳请读者及同行批评指正,我们将不胜感激。
最后,感谢家人和朋友的支持与帮助。同时,要感谢在本书翻译过程中做出贡献的人,特别是北京邮电大学张瑞涛、赵孟宇、傅广涛、丁哲伦、黄淮、靳梦凡和张涵等。还要感谢机械工业出版社的各位编辑,以及北京邮电大学计算机学院的大力支持。
北京邮电大学
智能通信软件与多媒体北京市重点实验室
计算智能与可视化实验室
黄智濒 陶袁
2021年2月