本书沿着时间的轨迹,讲述了物理世界中宇宙和地球的诞生与演变,探讨了生物世界中生命和人类的诞生与进化,讨论了数字世界中科学技术的产生与进步。数据与物质和能量并驾齐驱,构成了人类宇宙的三个基本要素,并以此为基础建立了物理、生物和数字三个各有千秋却密切相连的世界。“三个世界”的概念和框架构成了本书讨论数据智能的基础,为认识、理解数据和智能的起源与发展提供了一个宏观的问题视角和理论平台。介绍和讨论数据、信息和知识的概念定义、运作法则与实际应用,全面系统地描述和讨论了从原始数据到主观信息,最终到抽象知识的提炼与升华过程。对执行和实现此过程的自然和人工智能系统的模型、算法和功能等的基本原理和**进展进行系统的介绍和研讨。
本书可作为高校电子信息类、计算机类、自动化类等相关专业大一新生的入门级通识课程教材,也可供从事信息科学、技术和应用的工程技术人员参考。
前言
本书起源于作者自2014年起在山东大学信息科学与工程学院为本科一年级学生开设的入门级通识课程。初衷是希望通过一门必修课,使新入学的学生对信息科学、技术与应用有一个较为全面和系统的了解,以避免和纠正“只见树木,不见森林”的局限与偏见。同时,通过课堂内外师生之间有组织的分组分享与交流,开拓知识视野,激发学习兴趣,鼓励独立思考。
作为通识课,首先要强调的是“基础性”,即重点讲述数据与智能的基本概念和原理; 其次是“启发性”,提倡学生围绕所讲述和讨论的问题进行主动学习与独立思考。当代大学生都属于数字网络时代的“原住民”,在充分消费享受数字资源和智能技术带来的便利和快乐的同时,能否培养自己主动学习和独立思考的能力与习惯,将决定未来事业和人生的发展和前途。对于这些经过长期应试教育培训和激烈考试竞争脱颖而出的年轻人来说,通过一种全新的跨时空、多学科跨界融合的视角
,讲述和讨论关于数据智能的科学、技术与应用,可以更好地帮助他们应对大学学习以及未来的职业选择和人生规划
。
我们也在思考和探索关于大学教育的一些基本问题。在人类知识不断数字网络化和人工智能迅速专业化、普及化的大趋势下,大学本科生的教学内容和培养方式面临“百年未有之大变局”,特别是大学工程教育和创新实践方面的问题和危机更为突出和严峻。人类所创造和掌握的知识被数字化和网络化后大规模向机器迁移,而具有专业知识和学习能力的机器则开始具有更专业
甚至更高级的智能,能够在许多专业细分领域代替甚至超过人类的水平。数据智能科学与技术将从根本上改变人类与机器在知识与智能方面的分工与协作,同时也将给工业革命以来所建立的传统大学教育内容和培养方式带来新的问题与挑战。大学的专业划分越来越细致,课程内容越来越繁多,但学生对自己所学知识的理解与掌握却越来越肤浅,对数字网络媒体的依赖和困惑越来越严重,对未来人生的选择和价值取向越来越迷茫。从这个意义上讲,本课程和本书是作者思考和推动大学本科教育的一项创新性探索。我们认为应该在学生选择专业领域和职业方向之前,为他们提供更宽泛、更基础和更系统的通识入门教育,在此基础上和过程中使得他们能够以更高、更广的视角认识和理解相关学科的丰富内涵、基本概念、基础原理以及由此发展出来的技术和应用。毋庸置疑,信息科学特别是数据智能科学正在与物理、化学、生命、社会等学科深度交叉融合并在许多专业领域内产生了许多革命性技术和创新性应用。因此,新一代从事信息科学、技术和应用的专业人士和相关人员必须具备足够的知识基础和科学意识以迎接和拥抱正在发生的变革。
本书所涉及的大数据和人工智能等是目前科技界和社会上极流行和高热度的话题。但对这些科学概念和技术原理的认识和传播却往往过于片面、简化,以致造成误解甚至错误。关于数据与智能的书籍大体可以分为两类: 一类是面向大众的通俗读物,内容往往比较宽泛浅显,更倾向于描述事物是什么和能做什么,而对事物深层和背后的科学概念和技术原理缺乏严格、系统的描述和讨论。这种快餐式和碎片化的学习和知识很难帮助读者建立一个较为全面、系统的知识体系,更不可能激发有价值的独立思考与创新,其娱乐和商业成分往往高于科学技术成分。另一类是专业的教科书和参考书,主要针对从事数据科学和人工智能技术的专业人士,内容涉及某些专业技术领域的程序性专业知识,但往往缺乏内容广度和学科交叉融合的宏观视角。对于数据、信息、知识、智慧、智能以及相关的基本概念和基础理论,在大众常识和专业讨论中经常出现混淆、误解和错误等现象。而这些概念和模型不仅是专业人士从事更高级科技创新工作的理论基础,也是非专业人士认识和理解相关科学、技术与应用的必要条件。从一个更加宏观和长远的视角,对通识的理解掌握和融会贯通正是人类区别于机器的独特优势。当未来人类社会中众多的科学技术专家的职能和工作被具有智能与知识的专门算法和机器所替代和承担之后,人类的想象力和创造力将更加依赖和取决于对世界上实际问题的独特视角和科学技术的融合知识。与今天“专家”所建立和统治的世界不同,未来的世界也许将由那些具有创新能力和融合知识的个人和组织来推动和发展。基于这种认识和动机,我们希望通过一本通识但不失专业性的入门级教科书,对数据智能科学、技术和应用的基础概念和基本原理、历史背景和目前现状,以及存在的问题和未来预测等做一个比较全面、系统与科学的描述和解释。数据智能科学、技术与应用所涉及的知识范围广、内容更新快,开设这样一门课程,特别是撰写这样一本教科书无疑是一项极具挑战性的任务和工作。为此,我们尽量选取最基本的概念、假设、模型、推论和证据等,同时指出和讨论它们的局限性和近似性,鼓励和激发学生与读者批判性独立思考和大胆创新是本课程和本书最核心的目标。耶鲁大学前校长理查德·莱文(Richard Levin,1947— )曾经讲过: “真正的教育不传授任何知识和技能,却能令人胜任任何学科和职业,这才是真正的教育。”这无疑是一种极高的境界,现实中可能很难达到。但他还说: “本科教育的核心是通识,是培养学生批判性独立思考的能力,并为终身学习打下基础。”在山东大学的课堂上,我们希望能够实现这个教育的核心目标并正在为此做出努力。通过本书,我们希望能够在更大的范围内取得同样的效果。是否能够达到这个目的,只能由学生和读者来做最终的评判。
本书副标题 “追寻数据的足迹,探索智能的奥秘”概括了本书所遵循的基本思路与逻辑。数据、物质和能量并驾齐驱,构成了人类宇宙的三种基本要素, 并以此为基础建立了物理、生物和数字三个各有千秋、密切相连的世界。首先,我们沿着时间的轨迹,讲述了物理世界中宇宙和地球的起源与演变,探讨了生物世界中生命和人类的诞生与进化,讨论了数字世界中科学技术的产生与进步。同时,为了讲述的系统性和内容的完整性,我们简单明了地说明和解释了与物质、能量和数据相关的一些基本概念、理论模型与主要结论等。“三个世界”的概念和框架构成了本书讨论数据智能的基础,为认识和理解数据与智能的起源和发展提供了一个宏观的问题视角和基本的理论框架。接下来我们通过三个独立的篇章分别介绍与讨论数据、信息和知识的概念定义、运作法则和实际应用,全面、系统地描述和讨论从原始数据到主观信息,
最终到抽象知识的提炼与升华过程。需要特别提及的是,数据(data)、信息(information)、知识(knowledge)和智慧(wisdom)这些人们习以为常的概念在学术界和社会上并没有一个被普遍接受的定义与解释。关于这些概念的讨论不仅会得出不同甚至相互矛盾的结论,也会引起一些不必要的混淆、误解和争论。为此,我们对文献中关于这些基本概念和模型的各种观点和理论做了尽可能全面、系统的梳理、分析和总结,最终选择和提出了一套我们认为相对合理和自洽的体系。
在“数据法则”一篇中,我们给出了数据的严格定义、表现形式和度量方法,并且提出和讨论了数据所遵循的三个基本法则及推论,描述了数据所具有的客观性、物理性和生物性。“客观性”是指可以观测的客观世界可以被数据化,同时指出数据化的过程需要某种自然或人造的数据系统才能完成。“物理性”是指数据的存在和运动离不开物理世界的物质与能量并受到其物理规律的限制,同时也说明人类所发现和发明的科学技术不断减少处理和运用数据比特所需要的物质和消耗的能量。“生物性”是指数据是人类相互交流的媒介和认识世界的工具。通过对世界数据化,人类建立了一个虚拟化的数字世界,它既是客观物理和生物世界的反映,更是人类主观世界的扩展和升华。在“信息纽带”一篇中,我们首先讨论数据中结构形式、内容含义和预期效用的不确定性,进而引入用来消除这些不确定性的信息。我们将信息定义为基于某种形式、含义和效用,通过编码所得到的数据。信息源于数据,但不等于数据。在引入概率的基本概念之后,系统地介绍和解释了香农基于数据中符号分布的随机性进行编码的基本理论,讲述了对数据进行压缩、纠错和加密的基本原理和典型例子。接下来
,通过一些生动和有启发性的事例对信息的含义和效用问题做了阐述,并指出了香农信息论的局限性和扩展信息论模型考虑含义与效用的核心问题和可能思路。在“知识升华”一篇中,我们首先指出信息是连接数据与知识的纽带: 消除数据中的不确定性而产生信息必须以先验知识为重要依据,信息是知识的前提; 而知识本身又需要通过信息不断充实和丰富,知识是信息的归宿。从信息到知识的过程是一个不断消除不确定性的迭代过程。其次,引入了知识的定义,指出了知识本身具有客观与主观的双重特性,并进一步提出和讨论了知识的分类。我们总结和引入的关于知识的三个基本法则,分别对应知识的来源、过程和作用。最后,指出并讨论了科学技术进步引发知识爆炸和数字网络化,导致知识迁移,为人类带来的挑战性问题和可能影响,并且鼓励
、启发学生和读者思考、探索应对和解决的方法与途径。
从数据到信息、知识最终到智慧的过程,从形式上讲是一个从具体到抽象的数据压缩过程,而实质上却是一个从客观到主观的数据加工处理过程。能够驾驭这个过程的系统则是目前宇宙中“唯一”存在的人类智能系统,也包括人类所创造的人工智能系统。智能是目前科技等各个行业中曝光率很高的一个术语,却又是被误读、曲解、滥用甚至错用最多的
概念之一。从本质上讲,知识和智慧均是数据,而智能却是数据系统的功能,两者不能混为一谈。关于智能,我们将
通过
两篇的内容介绍和讨论自然智能和人工智能的课题。所谓“自然智能”,主要是指人类的智力,它属于心智能力的一部分,主要是指通过数据获取知识、通过知识做出决定和基于决定改变行为的能力。智能可以通过生理、心理和行为等测试来衡量。智能的最终目的是能够在所处环境和条件下实现有价值和意义的目标。而“人工智能”则是一种数学模型、计算程序和执行系统,包括软件和硬件,能够胜任和完成由人类或自然智能所具有的职能和任务。关于自然智能,我们介绍并讨论了基于心理测试、认知过程、生物机理以及认知与环境相互作用所建立的理论模型。虽然这些模型在一定程度上解释了自然智能的许多现象,但并没有真正回答和解决人类智能与大脑神经网络的关系等最根本的问题。在“人工智能”一篇中,我们重点介绍和讨论了机器学习和推理的模型、算法和应用。
人工智能模型虽然的确受到自然智能现象的启发和影响,但本质上讲却属于一种基于数学算法和算力资源的数据系统。人工智能是目前科技和工业界最活跃和动态的前沿领域。除了尽可能跟踪和介绍前沿科技和最新应用外,我们特别提出了人工智能作为人类的工具会带来哪些价值、会有哪些风险等问题。信息与生物科学的融合所带来的人工与自然智能的融合若真正发生,将会从根本上改变人工智能作为被动工具的原始属性。经过人工智能加强、升级和扩展的未来人类最终会进化成为什么样的物种?这是一个看起来符合逻辑而又极其敏感的问题。对此,我们不应该回避,而是应该认真严肃地提出、思考与讨论。
本书涉及数学、物理、生物和信息等不同学科,知识跨度大、强度高,同时不同学科之间的交叉融合度高,为学习、认识和研究数据智能科学、技术和应用提供了一个全新的视角。书中所涉及的知识点数量多,需要学生和读者潜心研读、用心思考。对于大学一年级的学生,这是一门具有相当宽度和一定深度的通识课,但具有中学数理化生基础的读者应该能够理解和接受。我们近年来的教学实践在很大程度上可以证明这个判断。对于希望了解和学习数据智能科学、技术和应用的读者,这也许是一本相对
严肃的教科书,知识性较强,娱乐性较差。如果将学习和掌握知识的过程比喻为通过饮食获取营养的过程,内容的娱乐性和通俗性就像食品的色彩和味道,色香味俱全的食品可以激发食欲,但不一定具有足够的营养; 通俗有趣的内容可以吸引眼球,但不一定具有所需要的知识。作为本书的作者和读者,我们将一起追寻数据的足迹,领略广阔宇宙物理世界的起源与演变,目睹地球奇妙生物世界的诞生与进化,感受人类创造的数字世界的辉煌和伟大。生物世界孕育了人类的自然智能,而智能的人类又创造了机器智能。探索智能的奥秘,我们充满好奇,不断提问、思索、解答和迭代。大自然在物质与能量之上进化出了神奇强大的人类自然智能,人类的自然智能创造出美丽惊艳的数字虚拟世界。这是一个前所未有的世界,充满了机遇与挑战。正如狄更斯
在《双城记》中所说: “这是最好的时代,也是最坏的时代; 这是智慧的年代,也是愚蠢的年代; 这是信仰的时期,也是怀疑的时期; 这是光明的季节,也是黑暗的季节; 这是希望的春天,也是失望的冬天; 我们面前应有尽有,我们面前一无所有; 我们正在直登天堂,我们正在直落地狱。”面对这个充满变化和未知的世界,人类所拥有的不只是智能,更有驾驭这些智能的主观意识与自由意志。智能的终结问题不在于智能本身,科技的终结问题也不在科技本身,而在于拥有智能和掌握科技的人类主观意识和自由意志所做出的选择与坚持。人类只有做出和坚持正确的选择,才有可能避免“聪明反被聪明误”的悲剧。
最后,本书的出版不仅是山东大学信息科学与工程学院的同事和作者在高等学校新工科教育改革与创新探索过程中的一项标志性成果,也是作者学术和教育生涯中的第一部著作。我少年求学时期因当时信息知识贫乏,加之社会动荡,未能得到足够的书本知识和文化熏陶。1977年,我有幸考入山东大学电子系,开启了对科学知识追求、探索和创新之旅。从1982—1989年在中国科学技术大学和美国麻省理工学院的研究生学习,到1989—2013年在加拿大滑铁卢大学和麦克马斯特大学执教的几十年里,我所关注和聚焦的领域均属于应用物理与工程学科的光电子学,知识与技能的积累也集中在其相关领域。在山东大学任教的八年中,我开始对数据、信息、知识和智能等科学、技术和应用产生好奇与兴趣,并在开设和建设信息学院本科生入门通识课的过程中
进行学习、思考与探索,不仅使我对信息科学技术的前沿发展有了新的了解和认识,也在一定程度上弥补了我
过去知识图谱中的空白与不足。与大多数20世纪50年代末期出生的同龄人相似,我们生长在一个以“贫乏”与“饥饿”为标志的年代,当时的社会不仅存在物质与能量贫乏而导致的饥寒,更有信息和知识的缺乏带来的无知和愚昧。作为时代变迁中的“幸存者”和“幸运儿”,我没有经历过饥饿的痛苦,但亲身感受到了无知的困惑,目睹了知识和科技对人生带来的巨大影响。在那个“读书无用”,甚至“知识越多越反动”的年代,我感谢父母赋予我生命中好奇的基因,更加感恩在我困惑迷茫时帮我指点迷津、拨云散雾的家人、朋友和同学。也许正如经受过物质饥饿的人对食物会具有一种本能的珍惜与分享一样,受过精神饥饿的人则对知识具有一种本能的好奇与分享的冲动与渴望。斯里兰卡传教士奈尔斯(D.T.Niles,1908—1970)曾经说过: 我们就像乞丐一样,试图告诉其他乞丐我们在哪里找到了面包。他所指的是传递上帝的福音,而我所讲的是传播科学的知识。对于作者来讲,创作与教学的过程中最大的挑战、最大的乐趣是对新知识的学习与理解以及对新问题的思考与探索。特别是在生物学基础、信息学理论以及人工智能科学技术等领域,作者原有的知识基础肤浅,对前沿成果的了解有限。借助开设课程和编写本书的机会,我不得不阅读相关基础和专业书籍以及大量的原始论文。
本书的编写得到了很多领域专家学者的指导与帮助。特别是周洪超教授在信息和人工智能理论方面,澄清和解答了我的许多疑问和不解。周斌教授在人工智能前沿研究和最新成果等方面提供了许多极具价值的材料,激发和鼓励我不断学习的热情和动力。在本书写作和成书过程中,我得到了许多同事和朋友的指点、鼓励和帮助。海信集团的原副总裁、我的发小王志浩先生对我最初几章的手稿做了详细的审阅,提出了许多珍贵的意见和建议。山东大学信息学院的张东升书记、刘琚教授、孙宝清教授、吴强教授不仅帮助纠正了书中的一些错误,也对本书提出了建设性的修改意见。在本书内容准备、讲授和研讨的过程中,山东大学信息学院的信息科学技术通识课的助教老师和本科生,不仅提出了许多极具启发的洞见和评论,也为我坚持最终完成此书提供了持续的激励与鞭策。最后,感谢山东大学张涵女士在本书编辑过程中给予的帮助和支持,经过她绘制和美化的插图为本书增色添彩。清华大学出版社的文怡编辑在本书出版的整个过程中给予了专业指导和精心审阅,最终促成了本书的最终落地出版。在此一并表示感谢!
作者
2021年12月