序 言
深度学习已经风靡人工智能领域,几乎渗透到各个商业应用当中。由于现在几乎所有内容和交易都以数字格式记录,因此可通过机器学习算法探索大量数据。然而,传统的机器学习技术很难探索这种所谓的大数据中出现的错综复杂的关系。对于诸如图像、语音和文本之类的非结构化数据,尤其困难。
深度学习算法具有非常强的学习能力,可以应对分析巨大数据流的挑战。此外,深度神经网络相对于其他人工智能技术,需要很少(如果有的话)的特征工程,就可以从头到尾进行训练。深度学习算法的另一个优点是仅需要最少的监督架构(换句话说,这些架构可以自动从数据中学习几乎不需要人为干预)。这些架构是弱监督学习,即所谓“无监督”。最后,深度学习可以当作生成过程进行训练,其算法不是将输入映射到输出,而是学习如何从纯噪声(即生成对抗网络)生成输入和输出。想象一下,从几百个随机数组合中,生成梵高的画作、汽车,甚至是人脸。这是多么神奇的事情!
谷歌语言翻译服务、Alexa语音识别和自动驾驶汽车均采用深度学习算法。其他相关领域也严重依赖深度学习算法,例如语音合成、新药研发及面部辨别和识别等。即使在创意领域,如音乐、绘画和写作,也开始被这项技术所颠覆。事实上,深度学习算法在经济中创造出了深刻的转型升级,这可能引发人类所见过的最大变革之一。
由于免费、强大的计算框架和API(如Keras和TensorFlow)的传播,运行模型的廉价云服务以及数据的便捷可用性,任何人都可以在几小时内在家中运行深度学习模型。这种“平民化”就解释了为什么对深度学习感兴趣的人数呈爆炸性增长,以及在开放格式Arxiv和NIPS等专业顶级会议上呈现的众多突破的原因。
本书巧妙地通过抽象数学技能探索各种深度学习算法,讲解了计算机视觉、自然语言处理、强化学习和无监督深度学习等深度学习领域的具体商业应用的案例。本书面向中级和高级专业人员以及对机器学习有基本了解的入门级专业人员。读者可以通过深入理解业务应用程序,了解有关各个领域未来发展的应用示例。
本书简要介绍了整个深度学习领域的最新算法,其主要目的为使算法更为实用:解释和说明在几个应用领域中使用的一些重要的深度学习算法,特别是对核心业务有重大影响的深度学习算法。本书面向那些想要了解深度学习以及如何将其用于开发商务应用的人,旨在为从业人员提供实用有效的实施方法。书中过滤掉了令人无所适从的统计学和线性代数推导,为读者提供了如何为商业模式制作简单动手工具的方法和技巧。
本书首先介绍了深度学习架构,并给出了简要历史背景。接下来介绍了深度学习的最先进实例,与传统的机器学习算法相比,其具有更好的应用前景。书中涵盖了推荐系统和自然语言处理的应用,包括能够捕捉语言翻译模型丰富性的递归神经网络(RNN)。最后介绍了研究深度学习模型在金融风险评估、控制和机器人技术及图像识别中的应用。在书中,你可以了解到产品中采用该技术的关键公司和初创公司,还可以找到有用的链接以及一些关于如何使用Keras和Python中的一些实际的代码示例和训练深度学习模型的示例、技巧和见解。
译者序
1992年离开清华园,也离开当时很有产业应用前景的通信行业, 进入语音识别这个前沿研究领域, 没考虑太多的就业前景, 因为那时没听说过互联网,更别说人工智能产业了,只是觉得语音识别更有趣,在智力上的挑战也更大。
27年后, 刚刚在一家国内上市公司完成一个“人工智能、机器换人”项目后,就离开这家上市公司的创新研究院院长职位,开始一家“人工智能+音乐教育”的创业公司,回顾这些年的所见所闻,感慨万千。
刚开始, 语音识别和图像处理是不同的行当, 模式识别和专家系统也是比较远的门类, 那时很少有人把它们统称为人工智能, 因为实在太难了, 每个细分行当的工具差别都很大,很少有人能同时精通这几个门类。 经历了近60年艰苦跋涉后, 很多“AI人才”转行进入互联网、基因测序和电子产品研发领域。2012年后,深度神经网络技术借助GPU 和互联网大数据,在语音识别和图像识别等领域首度超越了人的识别能力, 人工智能产业的革命真正到来了!
常常有人问我:“有了人工智能会怎样?”我建议他这样思考:“在1900年, 人们会问有了电会怎样? 站在21世界的你该怎样回答?”20世纪这一百年最重要的技术要素是电,人们现在不会再大规模从事“洗衣工”这样的职业。因为有了电,无论是黄昏还是黑夜,人们都可以更多地工作、学习、娱乐,创新了不计其数的新职业,生活品质大大提升。
21世纪的最大技术要素无疑是人工智能,产线工人、司机或物流人员、保安等职业将逐渐消失,就像100年前的洗衣工人,同时又有难以置信的无数新行业被“发明”出来,21世纪末的生活精彩程度是现在难以想象的。
无论你现在有什么技能,从事什么行业,在21世纪的生存发展都要求你具备“人工智能场景思维”,在各个场景里,人工智能做什么,人做什么,如何分工配合。这就是我们选择翻译推出这本《深度学习深度学习商业应用开发指南———从对话机器人到医疗图像处理》的原因,这里涉及的场景包括图像分割、图像识别、图像标题、视觉问答、视频分析、卫星图像处理、知识图谱、自然语言翻译、多模态学习、语音识别、机器人控制、自动驾驶、对话机器人、电子商务推荐算法、棋类游戏、电子游戏、图画风格转化、音乐处理、信用卡防诈骗、金融预测、医疗图像识别、新药发现、法务、数据中心管理等几十种应用。围绕这些应用场景,对具体的算法和技术也做了详细讨论。
本书适合各类各级企业管理者、产品经理、软硬件工程师、测试人员阅读,也适用于人工智能培训班、大学生创新创业实战训练、研究生课题演练、程序员实力提升使用。
本书的出版得益于北京航空航天大学出版社的推荐以及北航软件学院研究生邱国庆、李文意的辛勤付出,在此一并表示感谢。
由于人工智能是近年来快速发展、迭代演变的领域,对于一些术语也有不同的译法,我们尽量多方考证,选用在国内最为普遍的术语译法。
两位译者对全书做了三遍校对,尽管如此,错误仍然在所难免, 如果读者发现错误或不妥之处,可以给我们发邮件,我们将在再版时修订,感谢您的参与和指正。衷心祝愿您能拥抱人工智能时代,具备人工智能场景思维,更好地服务他人,为社会创造更多财富,也让您和您的家人拥有更美好的未来。
译 者
2018年6月于苏州科技城