在笔者完成《SAS数据统计分析与编程实践》一书后,中国铁道出版社有限公司的编辑邀请笔者创作一本讲解数据分析行业的图书。闻听此言,笔者的个反应是拒绝,乃至产生一种恐惧的感觉。
数据分析行业是一个庞杂而体系化的产业,从开始的数据收集,再到后续的数据前处理、统计分析、建模,再到更靠后的数据可视化,乃至人工智能、机器学习的应用。笔者仅仅是处于数据统计分析阶段的一位从业者,更具体地,笔者所处理的数据仅仅是临床试验数据这一个数据量极小的分支,笔者又有何德何能撰写一本图书,来为从业者和计划从事数据行业的人士提供指导呢?
出版社的编辑听到笔者的顾虑后,反问了一个很有深意的问题:那么您觉得谁能够完整地洞悉各个数据行业中每个产业链环节的技术呢?
此言一出,笔者的感觉是不知如何回答,继续思考后发现这其实是一个很有价值的问题。随着数据分析行业的细化,数据分析师这个名词其实也变得具有很多的内涵,在有些公司,数据分析师是指使用Excel完成报表创建和整理的工作人员,而有的公司的数据分析师则需要掌握人工智能的复杂编程技能,同样的职位名称对应着不同的工作内容,这也是数据分析行业尚处于发展阶段的一个例证。
进一步思考,笔者发现,纵观整个产业界,无论是所谓的大师、专家或学者,每个人的视野其实都只能局限于数据分析的某个环节。认清了这一点,笔者也不妨大方承认,本书中所述内容,数据处理方法、缺失值处理、统计分析方法、数据分析标准化和数据可视化,笔者有过亲身经历,并使用代码完成过本书绝大多数细节;而针对机器学习、人工智能、大数据等领域,笔者仅进行过系统性的学习,并未在项目中有过实际操作的经验。
承认以上不足正是因为笔者清醒地意识到:数据分析行业的分工正在快速细化,与其给读者营造一种自己什么都懂的假象,不妨大方承认自己仅仅是复杂产业链中一环的工作者,并没有能力融会贯通地理解数据分析行业所有的体系化知识。笔者甚至愿意承认,如果你仅对大数据、人工智能的数据分析前沿领域感兴趣,那跳过本书而阅读其他行业专家的图书会是更好的选择。
但请注意另一方面,笔者并不认为因为个人局限性本书就会变得毫无价值。数据分析行业是一门实践科学,而本书的目的正是指导数据分析师的实践,不仅仅是高谈理论。若仅探讨数据分析行业的现状、新技术的发展和数据分析的未来,很多人都能如笔者一样高谈阔论出一堆悬而未决的理论。
笔者创作本书的一个目标就是指导性,让读者不仅理解某些理论,更可以理解理论所应用的场景,乃至清楚哪些编程手段会用到这些理论。这些在工作中被作为背景知识的知识,才是笔者更希望传达的价值。
提到背景知识,笔者认为这个词很好地概括了本书创作的目的这是一本为数据分析师提供背景知识的书籍。所谓背景知识,就是指那些在特定领域中至关重要却被认为是每个人都应该理解的知识。但作为新手从业者,很多人其实尚未建立背景知识库。若以这种视角观察本书,各位读者应该可以发现本书的内容正是为各位读者补齐这一短板。
在本书的第1章,我们洞悉了数据分析的定义和数据分析行业的特点,在第2、3章,笔者对数据分析的现状和未来进行了阐述,以此建立起从业者对数据分析行业的总体认知。在第4、5、6、7、8章中,我们深入数据分析技术,从数据分析选取的工具,谈到数据前处理、统计分析方法、数据标准化和数据可视化,它们每一个都是数据分析的重要子命题,很多从业者未来也会选取其中一个方面作为自己的职业。从第9章到第11章,我们又将视野拉开,观察一名优秀的数据分析师应当具备的能力,从能力塑造的角度重新理解数据分析行业。
笔者非常希望此书能够帮助到致力于从事数据分析行业的读者,也希望本书可以作为数据分析从业者的进阶读物,为本行业吸引更多优秀、有潜力的人才。
若读者中十之一二能因本书而对数据分析行业产生兴趣,那笔者定会欣慰不已。若读者发现本书中的错误、不完善之处,乃是因笔者自身水平不高、实践经验不足所致,欢迎读者将所发现的不妥之处或自身感悟发送至邮箱iwenhaoma@gmail.com,以供笔者自省。
《数据分析:应用技能、思维框架与行业洞悉》 马文豪北京理工大学学士,美国得州大学信息系统管理硕士,高级SAS统计程序员。曾任职多家美国药企,主导过糖尿病、非小细胞癌、罕见病等多个药物项目的I-IV期临床试验数据标准化及生物统计工作。2020年创办公司及公众号砝码数据,开设了SAS编程技术与项目实战和SAS编程与CDISC标准等课程,其深入浅出的讲解风格受到大量学生的欢迎。李翔宇北京工业大学通信工程学士,美国得州大学信息系统管理硕士,高级系统分析师。拥有多年通信、能源、教育行业的系统分析和搭建经验,重点研究数据分析行业发展与综合人才素质养成机制。在美国创办公司JNDataResolution,为创新药企业提供合同研究服务及咨询服务,与药企共同加速药物上市过程,让临床试验数据产生出更大的价值。