前 言
当一个观点不能被洞察和理解时,这种观点就会变得危险。
—马歇尔·麦克卢汉
本书是为产品分析从业者设计的一本从业指南,主要讲解如何基于消费者数据生成可实践的洞见。这些“可实践的洞见”源自曾经在Web产品、移动产品或整个组织中驱动过变革的实践。很多组织都曾从其Web产品或内部组织获得了TB级的用户数据,然而这些数据都未曾被使用过。怎样使用这些数据促进用户增长,增加收入,提升用户参与度并提高组织效率,组织并没有认真思考过。
本书将教你逐步地从用户数据中收获洞见。通过精心分析基于用户数据理论曲线构建的高峰和低谷,观察不同实验设计产生的实验效果,再在复杂的开发模式上实现,最终将这些结果转化为可实践的洞见。本书是一个产品数据科学工具包的入门级教程。
数据科学是一个多学科交叉领域,其目标就是从数据中收获洞见。数据科学产品的重心是利用用户数据来驱动产品和组织变革,以实现核心业务目标。它强调使用先进的分析策略来理解用户并改变用户,从而帮助初创企业和大型公司构建符合市场的产品,并超额完成销售目标。注意,本书不涉及其他数据科学工作流程,例如构建可扩展的推荐系统、计算机视觉和图像识别或其他类型的应用程序。
数据科学中涉及的分析数据来源非常多。通常情况下,这些数据可能是来自Web产品的用户数据,也可能是电子邮件或邮寄广告类的数据、调查数据、公司内部数据或营销综合数据,还可能是人口统计或普查数据,以及各种其他类型的数据等。
读者对象
本书的目标读者包括企业家、数据科学家、分析师,以及所有利用用户数据来推动Web产品或移动产品的用户增长、收入增加、效率或用户参与度提高的从业人员。如果你想成为产品数据科学家、产品数据分析师、建立企业网站或Web产品的企业家,又或者对处理Web上可用的TB级行为数据感兴趣,那么这本书很适合你。这本书是为从业者编写的,不适合学术读者。如果你想了解现实世界中的产品数据,那么本书就再合适不过了。
产品数据科学要从用户行为中获取洞见,这依赖于多门学科知识。虽然分析工具包更现代化,但它仍然依赖计算方法和统计方法,会涉及一些新的机器学习和因果推断技术。在过去的400年,社会科学家一直在研究人类行为,“可实践的洞见”还需要充分整合社会科学方法和分析工具才能得以生成。
通常,从业人员只使用一种工具包,不会同时使用多个工具包。许多数据科学家精通最新的机器学习技术,但是缺乏用户专业知识和定性技能,导致不能使用这些技术从用户数据中提取“可实践的洞见”。当面临开发大量社会过程理论和将概念落实到具体实践时,他们常常会陷入困境。
相比之下,许多对人类行为有充分了解的用户专家,由于缺乏统计和机器学习的知识,因此无法充分测试他们的想法和模型数据。本书的目标是为主题专家和机器学习专家架起一座桥梁,将主题专家的上下文洞察力与机器学习专家的复杂方法相结合,从而在Web或移动分析领域生成有意义的洞见。
本书内容
本书结合Web分析领域的实际案例介绍 :
如何像社会科学家一样思考,将社会环境中的个人行为情景化,探索人类行为的发展方式,并为改变行为创造条件;
如何为Web产品定制核心指标和用户分析的关键绩效指标;
如何理解统计推断、相关性和因果关系间的差异,以及在何时应用这些技术;
如何进行更有效的A/B 测试;
如何构建直观的预测模型,帮助捕获产品中的用户行为;
如何使用准实验设计技术和统计匹配技术,从观察数据中梳理出因果关系;
如何实施复杂的目标定位方法,例如针对营销活动的增益建模;
如何使用高级人口预测方法,预测业务成本和人口子群体之间的变化关系。
本书主题
本书包含3个主题:
(1)将社会学、心理学和人口统计学的定性工具与统计学、机器学习和计算机科学的定量工具进行整合,应用于Web分析领域。
(2)因果推断(不是预测)方法,它对于改变人类行为不可或缺。
(3)以非数学解释和R语言演示应用程序的方式讨论机器学习和因果推断主题。因为这些领域的大多数著作都不是为从业者编写的。
主题1:定性工具与定量工具
第一个主题是本书的核心。该部分的目标不仅是为读者提供分析工具,还为读者提供应用这些分析工具和示例所需的资源。这些工具和示例最适合用于Web应用程序。数据科学或机器学习领域中的许多书籍都只是简单地介绍了底层算法。尽管这些算法确实发挥了重要的作用,但我的脑海不禁浮现出“垃圾进,垃圾出”这句话。没有适当的数据,算法将毫无用处。将错误的算法应用于错误的问题可能会导致一大堆问题。
要正确应用算法或设计实验,我们需要回顾一下整个过程:理论构建、概念化、操作化、指标构建、假设检验、证伪等。我们可以使用大量定性工具来准确地模拟人类行为和社会过程。如果不使用这些工具,就会丢失大量的信息、细微差别和洞见,还可能完全误解用户在我们的Web产品中的行为。第1~3章主要向读者介绍那些用来理解和建模用户行为的定性工具。
获得可实践的洞见需要了解上下文和每个变量中存储的信息。如果无法清楚地将概念想法与分析结果关联起来,那么什么结论也获取不到。我的一个好朋友拥有物理学博士学位,他目前在一家女装公司担任数据科学家,正好面临这样的情况。他热爱物理学,也喜欢将物理学算法应用于各种数据集,但他很难将结果与具体的商业环境联系起来。我经常会问他对女装业务有何见解,但他总是回答说,他通过“一些极其复杂的调整”应用了最新的“ X”模型。尽管将复杂的、经过优化的算法应用于正确的上下文非常棒,但这些算法也有可能被应用于错误的数据集,还可能被人们用来掩盖自己对于某个主题缺乏真正洞见的事实。
“可实践的洞见”实际上并不依赖于人们是否使用最新的算法。通常来说,好的算法的确能稍微改善结果,但是一旦使用错误的数据,获得有价值洞见的希望将会彻底破灭。还有一个问题是人们对准确数据的误解,这在行业中非常普遍。
因此,在开始数据分析之前,选一个好的定性方法是非常重要的,这样就可以避免以
“垃圾出”告终。不过,由于原始数据通常不容易被记录,因此由变量测量或统计的内容就很容易被误解。我们必须准确理解用户采取哪些必要步骤才能获得特定变量,以及用户完成哪些操作后才能获得特定的变量结果。如果用变量代表一个概念复杂的想法,那么这个变量实际上测量的是这个概念的哪些部分呢?适当地具备相关的理论知识和正确的定性框架知识,便能对数据进行更合理的解释和更正确的使用。
主题2:因果推断
第二个主题更偏重于因果推断,而不是预测。许多数据科学书籍都专注于预测算法。本书提供了由以下算法组成的基本预测工具包:k均值、主成分分析(PCA)、线性回归、逻辑回归、决策树、支持向量机以及一些时间序列建模技术。更高级的主题(例如双重差分模型、统计匹配和增益模型)都与因果推断相关。
不过,我们在第9章中提到了先进预测技术,即人口统计学中的人口预测技术。在第9章中,我们通过一种比较新颖的方式使用预测建模技术来创建更好的核心用户指标(例如留存指标),以此了解Web产品中不同子群体的变化,从而预测未来用户的变化。通常,对于用户行为的分析,因果推断优于预测。
主题3:产品分析的入门指南
之所以撰写这本书,是因为我发现大多数有关数据科学、因果推断统计或人口统计学的书籍都非常学术化,需要很强的论证思维。尽管这些知识在某些情况下很重要,但是这超出了普通人在数学领域的认知。因果推断工具的使用大多数时候不需要过多的数学知识,在对R语言不了解的情况下,也可以非常容易地使用。统计数据科学和因果推断工具在许多业务环境中都很有用,但由于缺乏数学领域的复杂知识,往往无法在实际中应用。
本书的目标就是让所有完成高中数学和统计学的人都可以学习和掌握数据分析的方法。这可能有些乐观,因为某些主题(例如统计匹配、增益建模和人口预测)在数学上的确非常复杂。所以,我们首先要使它们在概念上易于理解。数学知识比较缺乏的读者需要先了解一些算法的工作原理和应用场景。阅读本书后,读者需要找到符合设计或者能应用到自己的特定案例的模型来进行练习。在确定正确的设置和算法后,读者应该能够在 R中运行自己的分析程序。本书的核心目标是向读者介绍这些算法的工作原理,在哪些情况下应该在用户或Web分析上下文中应用特定的算法,以及可以应用 R 中的哪些工具来获得正在寻找的答案。
在本书中,我们很少使用数学符号,因为这会让很多读者没有阅读下去的兴趣。第1~6章将尽可能少地使用数学符号,只从文字上描述一下方程式。第6章之后可能会依赖一些数学素材,所以随后的章节将偶尔使用数学符号。
本书结构
本书的目标是更好地建模、理解和改变Web产品和移动产品中的用户行为。本书将按如下结构分五大部分进行阐述 :
第1~3章讲解用来建模用户行为的定性工具及理论;
第4~6章介绍入门级的产品分析中的统计方法;
第 7~9 章探讨预测建模和预测方法;
第 10~13 章介绍真实世界中数据的因果推断方法;
第 14~16 章用R实现定量方法。
第 1 章是一个介绍性章节,通过晚宴的比喻向读者阐述不利于理解用户行为的常见陷阱,例如将社交数据视为一个“过程”而不是一个问题。社交数据往往信息非常不完整,没有明确的结果,而且还有大量相互关联的变量,是一个容易被扰乱的系统,因此我们很难推断因果关系。
第2章回顾科学方法,并介绍量化人类行为的社会学工具。在探索概念化想法的同时,我们也在思考“量化”这个词,包括它代表着什么,以及在量化过程中会丢失什么。当今,一切量化都在朝着指标发展。人们尝试用一些定量指标来替换复杂的定性指标,这是一件非常困难的事情,因为这些指标很少能捕捉到原始人类在探索过程中的一些高级行为或一些出乎专家预料的复杂行为。从业者很少深入研究所使用指标的缺点,这导致了更多的误导策略。
第 3 章介绍人类行为改变。用户分析已从人口统计分析的形式转变为更复杂的形式,即在Web产品中定位用户和改变