前 言
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
人工智能(Artificial Intelligence,AI)这一学科始创于1956年,经历了几次突飞猛进的发展,但每次都伴随着漫长的寒冬,也就是AI寒冬—其原因是计算能力的限制、硬件技术成本的提高、科研经费的缺乏等。而包括无线技术、信息技术和集成电路(IC)在内的其他技术,在此时期已经有了显著的进步并成为主流。从2010年开始,先进的计算技术、取自人们日常活动的大数据,以及机器学习、神经网络等人工智能研究子领域的整合,使社会风尚的主流转向人工智能研究及其广泛的应用。例如,谷歌DeepMind最近推出的人工智能围棋玩家AlphaGo Zero,可以在零人工输入的情况下实现超人类水平的性能。也就是说,这台机器可以从不了解任何围棋知识开始,通过与自己玩游戏成为自己的老师。AlphaGo的突破性成功表明,人工智能可以从一个“新生的婴儿”开始,学会自己成长,最终表现出超人类水平的性能,帮助我们解决现在和未来面临的最具挑战性的任务。
本书的灵感来自强化学习(RL)与信息物理系统(CPS)领域近期的发展。强化学习植根于行为心理学,是机器学习的主要分支。与监督学习和无监督学习这样的机器学习算法不同,强化学习的主要特征是其独一无二的学习范式—试错法。通过与深度神经网络结合,深度强化学习变得十分强大,使得AI智能体能够以超人类的水平自动管理许多复杂的系统。此外,人们期望CPS能够在不久的将来给我们的社会带来颠覆性改变,例如新兴智能建筑、智能交通和电网。然而,CPS领域传统的人工编程控制器,既不能处理日益复杂的系统,也不能自动适应它以前从未遇到过的新情况。如何应用现有的深度强化学习算法或开发新的强化学习算法以实现实时适应性CPS?此问题仍然悬而未决。本书通过系统介绍强化学习领域的基础与算法,在两个领域之间建立起联系,并在每一部分列举了一个或几个最新的CPS示例,以帮助读者直观地理解强化学习技术的实用性。我们相信,书中大量关于强化学习算法的CPS示例会对所有正在使用或将使用强化学习工具解决现实世界问题的人非常有益。
本书系统介绍强化学习和深度强化学习的关键思想和算法,并全面介绍CPS和网络安全。我们的目标是使所展示的内容易于机器学习、CPS或其他相关学科的读者理解。因此,本书不是一本严格意义上的专注于强化学习和CPS理论的书籍。此外,本书并不是对现有的可用强化学习算法的最新总结(因为文献数量庞大且发展迅速)。只有少数典型的强化学习算法被收录在本书中用于教学。
本书第一部分对强化学习、CPS和网络安全进行概要介绍。第1章介绍强化学习的概念和发展历史。第2章介绍CPS和网络安全的概念和框架。第二部分正式介绍强化学习的框架,并对强化学习问题进行定义,给出了两类解决方案:基于模型的解决方案和无模型的解决方案。为了使本书各部分内容独立,以便读者不必事先了解强化学习就可以很容易地理解每一个知识点,我们在本书中采用Sutton和Barto(1998)的经典强化学习书籍中的一些资料,而不是在书中提供索引让读者到他们的书中查看相关的算法和讨论。最后,我们用一章的篇幅介绍近年来发展极为迅速的新兴研究领域—深度强化学习。第三部分通过回顾现有的网络安全技术并描述新兴的网络威胁,将注意力转移到网络安全,其中这些新兴的网络攻击不是传统的网络管理方法能直接解决的。之后给出了两个案例研究,它们是基于(深度)强化学习解决这些新兴网络安全问题的典型案例。这两个案例基于哥伦比亚大学研究生的研究成果。这一部分旨在说明如何应用强化学习知识来描述和解决与CPS相关的问题。
本书适用于科学与工程领域的研究生或大三/大四本科生,这些领域包括计算机科学/工程、电气工程、机械工程、应用数学、经济学等。目标读者还包括与强化学习、CPS以及网络安全等领域相关的研究人员和工程师。读者所需的唯一背景知识是微积分和概率论的基础知识。
从某种意义上说,我们已经花了相当长的时间来为本书做准备。在过去的一年里,我们从哥伦比亚大学研究生和同事的反馈中受益匪浅。他们中的许多人对本书做出了重大贡献。在此特别鸣谢:Tashrif Billah(第1章),邱龙飞、曾毅、刘小洋(第2章),Andrew Atkinson Stirn(第3章),Tingyu Mao(第4章),张灵钰(第5章),颜祯佑(第6章),邱龙飞、刘小洋(第7章),Mehmet Necip Kurt、Oyetunji Enoch Ogundijo(第8章参考了他们的研究成果),胡晓天、胡洋(第9章参考了他们的研究成果)。我们还感谢Urs Niesen、Jon Krohn、张鹏、王振东和刘跃明对书稿的仔细审查和提出的建设性反馈。王振东和张磊贡献了本书第3、4、5章的练习。本书中的一些练习和示例是从一些(在线)大学课程中获取的,或由这些课程中的一些练习和示例修改而来,这些课程包括斯坦福大学的课程CS221和CS234、伯克利大学的课程CS294-129、卡内基–梅隆大学的课程10-701、伦敦大学学院的课程GI13/4C60、犹他大学的课程CS6300和华盛顿大学的课程CSE573。
最后,李崇博士非常感谢他的博士导师Nicola Elia。Elia教授对科学研究的严谨态度和方法,特别是他在最优反馈控制和信息理论方面令人印象深刻的见解,极大地影响了本书的写作方式。事实上,最优反馈控制一直被视为强化学习历史上的两条主要线索之一。而另一条线索来自动物学习心理学。本书是对反馈控制理论和反馈信息理论的长期思考和深入研究的直接成果。邱美康教授感谢他的研究小组成员盖珂珂教授和邱龙飞先生在将强化学习应用于网络安全方面的研究洞察力和奉献精神。我们相信由人工智能引领的新兴领域将从根本上改变世界、人类和整个宇宙。