书籍详情
《解析深度学习:语音识别实践》[52M]百度网盘|亲测有效|pdf下载
  • 解析深度学习:语音识别实践

  • 出版社:电子工业出版社
  • 出版时间:2020-10
  • 热度:7001
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

编辑推荐

适读人群 :本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有 的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。

本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。

本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域*新的研究进展;译者俞凯、钱彦旻也是本领域的资深专家,并有众多实践成果。对于从事此领域研究的读者来说,本书无疑有重要的参考价值。


内容简介

本书是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。

作者简介

俞栋

1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013 年IEEE 信号处理协会*佳论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

邓力

世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。 邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在顶级杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。

俞凯

IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是*组部“*人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80 余篇,申请专利10 余项,取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013 年颁发的2008—2012 Computer Speech and Language *优论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。

钱彦旻

上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。此外,担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇,Google Scholar 总引用数近1000 次。其中包括在语音识别领域权威国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇,申请国家专利共3 项,已授权1 项。2008 年获科技奥运先进集体奖,2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖进步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。


目录

译者序 iv

序 vii

前言 ix

术语缩写 xxii

符号 xxvii

第 1 章 简介 1

1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 人类之间的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2 人机交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 第一部分:传统声学模型 . . . . . . . . . . . . . . . . . . . . . . 6

1.3.2 第二部分:深度神经网络 . . . . . . . . . . . . . . . . . . . . . . 6

1.3.3 第三部分:语音识别中的 DNN-HMM 混合系统 . . . . . . . . . . 7

1.3.4 第四部分:深度神经网络中的表征学习 . . . . . . . . . . . . . . 7

1.3.5 第五部分:高级的深度模型 . . . . . . . . . . . . . . . . . . . . . 7

第一部分 传统声学模型 9

第 2 章 混合高斯模型 11

2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 高斯分布和混合高斯随机变量 . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . . 16

第 3 章 隐马尔可夫模型及其变体 19

3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3.1 隐马尔可夫模型的性质 . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.2 隐马尔可夫模型的仿真 . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.3 隐马尔可夫模型似然度的计算 . . . . . . . . . . . . . . . . . . . . 24

3.3.4 计算似然度的高效算法 . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3.5 前向与后向递归式的证明 . . . . . . . . . . . . . . . . . . . . . . 27

3.4 期望最大化算法及其在学习 HMM 参数中的应用 . . . . . . . . . . . . . 28

3.4.1 期望最大化算法介绍 . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.4.2 使用 EM 算法来学习 HMM 参数——Baum-Welch 算法 . . . . . . 30

3.5 用于解码 HMM 状态序列的维特比算法 . . . . . . . . . . . . . . . . . . . 34

3.5.1 动态规划和维特比算法 . . . . . . . . . . . . . . . . . . . . . . . . 34

3.5.2 用于解码 HMM 状态的动态规划算法 . . . . . . . . . . . . . . . . 35

3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . . 37

3.6.1 用于语音识别的 GMM-HMM 模型 . . . . . . . . . . . . . . . . . 38

3.6.2 基于轨迹和隐藏动态模型的语音建模和识别 . . . . . . . . . . . . 39

3.6.3 使用生成模型 HMM 及其变体解决语音识别问题 . . . . . . . . . 40

第二部分 深度神经网络 43

第 4 章 深度神经网络 45

4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . . 48

4.2.1 训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.2 训练算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.3 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3.5 批量块大小的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3.6 取样随机化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3.7 惯性系数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.8 学习率和停止准则 . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.3.9 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3.10 可复现性与可重启性 . . . . . . . . . . . . . . . . . . . . . . . . . 62

第 5 章 高级模型初始化技术 65

5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.1.1 受限玻尔兹曼机的属性 . . . . . . . . . . . . . . . . . . . . . . . . 67

5.1.2 受限玻尔兹曼机参数学习 . . . . . . . . . . . . . . . . . . . . . . 70

5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

第三部分 语音识别中的深度神经网络–隐马尔可夫混合模型 81

第 6 章 深度神经网络–隐马尔可夫模型混合系统 83

6


前言/序言

译者序

技术科学的进步历程往往是理论通过实践开辟道路的过程。尽管众多研究者将Geoffrey Hinton 在 2006 年发表关于深度置信网络( Deep Belief Networks)的论文,视为深度学习出现的重要标志,但那时,该技术还只是多层神经网络权值初始化的一种有效理论尝试,仅仅对一小部分机器学习专家产生着影响。真正让深度学习成为 2013年《麻省理工学院技术评论》的十大突破性技术之首的,则是深度学习在应用领域的巨大实践成功。而语音识别正是深度学习取得显著成功的应用领域之一。语音识别的发展自 20 世纪 70 年代采用隐马尔可夫模型( HMM)进行声学建模以来,每个时代都有经典的创新成果。如 20 世纪 80 年代的 N 元组语言模型, 20 世纪 90 年代的 HMM 状态绑定和自适应技术, 21 世纪第一个十年的 GMM-HMM 模型的序列鉴别性训练等。尽管这些技术都显著降低了语音识别的错误率,但它们都无法把语音识别推动到商业可用的级别。深度学习技术在 21 世纪的第二个十年产生的最重大的影响,就是使得语音识别错误率在以往最好系统的基础上相对下降 30% 或更多,而这一下降恰恰突破了语音识别真正可用的临界点。该技术的突破伴随着并行计算基础设施的发展,移动互联网大数据的产生,其影响进一步交叠扩大,目前已经成为业界毫无争议的标准前沿技术。

本书作者俞栋博士和邓力博士正是这一突破的最早也是最主要的推动者和实践者。他们与 Geoffrey Hinton 合作,最早将深度学习引入语音识别并取得初步成功,后续又连续突破一系列技术瓶颈,在大尺度连续语音识别系统上取得了研究界和工业界广泛认可的突破。在几乎所有的语音识别应用深度学习的核心领域上都有这两位学者的影响。我与这两位学者相交多年,深刻地感觉到,他们在深度学习应用上的突破并非在恰当的时间接触到恰当的算法那样简单,而是来源于对语音识别技术发展历程的不懈摸索。事实上,如作者们在本书中提到的,神经网络、层次化模型等思路在语音识别发展的历史上早已被提出并无数次验证,但都没有成功。回到深度学习成功前的十年,那时能够持续不断地在“非主流”的方向上尝试、改进、探索,是一件非常不易的事情。因此,我对二位学者一直怀有敬意。此次受他们之托,将展现深度学习在语音识别中的实践历程的英文著作翻译成中文,也感到十分荣幸。

目前已有的语音识别书籍均以介绍经典技术为主,本书是首次以深度学习为主线,介绍语音识别应用的书籍,对读者了解前沿的语音识别技术以及语音识别的发展历程具有重要的参考价值。全书概要地介绍了语音识别的基本理论,主体部分则全面而详细地讲解了深度学习的各类应用技术细节,既包括理论细节,也包括工程实现细节,给出了深度学习在语音识别领域进行应用研究的全景。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读。由于篇幅限制,一些算法的介绍没有进行大幅展开,但所有的算法及技术细节都提供了详尽的参考文献,读者可以按图索骥。

本书的翻译是与钱彦旻博士共同完成的,同时,也得到了上海交通大学智能语音实验室的贺天行、毕梦霄、陈博、陈哲怀、邓威、刘媛、谭天、童思博、项煦、游永彬、郑达、朱苏、庄毅萌的帮助,以及电子工业出版社的大力支持,在此一并表示感谢。翻译过程难免存在疏漏和错误,欢迎读者批评、指正。

俞凯

本书首次专门讲述了如何将深度学习方法,特别是深度神经网络( DNN)技术应用于语音识别( ASR)领域。在过去的几年中,深度神经网络技术在语音识别领域的应用取得了前所未有的成功。这使得本书成为在深度神经网络技术的发展历程中一个重要的里程碑。作者继其前一本书 Deep Learning: Methods and Applications 之后,在语音识别技术和应用上进行了更深入钻研,得成此作。与上一本书不同,该作并没有对深度学习的各个应用领域都进行探讨,而是将重点放在了语音识别技术及其应用

上,并就此进行了更深入、更专一的讨论。难能可贵的是,这本书提供了许多语音识别技术背景知识,以及深度神经网络的技术细节,比如严谨的数学描述和软件实现也都包含其中。这些对语音识别领域的专家和有一定基础的读者来说都将是极其珍贵的资料。

本书的独特之处还在于,它并没有局限于目前常应用于语音识别技术的深度神经网络上,还兼顾包含了深度学习中的生成模型,这种模型可以很自然地嵌入先验的领域知识和问题约束。作者在背景材料中充分证实了自 20 世纪 90 年代早期起,语音识别领域研究者提出的深度动态生成模型( dynamic generative models)的丰富性,同时又将其与最近快速发展的深度鉴别性模型在统一的框架下进行了比较。书中以循环神经网络和隐动态模型为例,对这两种截然不同的深度模型进行了全方位的有见地的优

劣比较。这为语音识别中的深度学习发展和其他信号及信息处理领域开启了一个新的激动人心的方向。该书还满怀历史情怀地对四代语音识别技术进行了分析。当然,以深度学习为主要内容的第四代技术是本书所详细阐述的,特别是 DNN 和深度生成模型的无缝结合,将使得知识扩展可以在一种最自然的方式下完成。

总的来说,该书可能成为语音识别领域工作者在第四代语音识别技术时代的重要参考书。全书不但巧妙地涵盖了一些基本概念,使你能够理解语音识别全貌,还对近两年兴盛起来的强大的深度学习方法进行了深入的细节介绍。读完本书,你将可以看清最前沿的语音识别是如何构建在深度神经网络技术上的,可以满怀自信地去搭建识别能力达到甚至超越人类的语音识别系统。

Sadaoki Furui

芝加哥丰田技术研究所所长,东京理工学院教授

前言

以自然语言人机交互为主要目标的自动语音识别( ASR),在近几十年来一直是研究的热点。在 2000 年以前,有众多语音识别相关的核心技术涌现出来,例如:混合高斯模型( GMM)、隐马尔可夫模型( HMM)、梅尔倒谱系数( MFCC)及其差分、n 元词组语言模型( LM)、鉴别性训练以及多种自适应技术。这些技术极大地推进了ASR 以及相关领域的发展。但是比较起来,在 2000 年到 2010 年间,虽然 GMM-HMM序列鉴别性训练这种重要的技术被成功应用到实际系统中,但是在语音识别领域中无论是理论研究还是实际应用,进展都相对缓慢与平淡。

然而在过去的几年里,语音识别领域的研究热情又一次被点燃。由于移动设备对语音识别的需求与日俱增,并且众多新型语音应用,例如,语音搜索( VS)、短信听写( SMD)、虚拟语音助手(例如,苹果的 Siri、 Google Now 以及微软的 Cortana)等在移动互联世界获得了成功,新一轮的研究热潮自然被带动起来。此外,由于计算能力的显著提升以及大数据的驱动,深度学习在大词汇连续语音识别下的成功应用也是同样重要的影响因素。比起此前最先进的识别技术——GMM-HMM 框架,深度学习

在众多真实世界的大词汇连续语音识别任务中都使得识别的错误率降低了三分之一或更多,识别率也进入到真实用户可以接受的范围内。举例来说,绝大多数 SMD 系统的识别准确率都超过了 90%,甚至有些系统超过了 95%。

作为研究者,我们参与并见证了这许许多多令人兴奋的深度学习技术上的发展。考虑到近年来在学术领域与工业领域迸发的 ASR 研究热潮,我们认为是时候写一本书来总结语音识别领域的技术进展,尤其是近年来的最新进展。

最近 20 年,随着语音识别领域的不断发展,很多关于语音识别以及机器学习的优秀书籍相继问世,这里列举一部分:

Deep Learning: Methods and Applications, by Li Deng and Dong Yu (June, 2014)

Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods, by Joseph Keshet, Samy Bengio (Jan, 2009)

Speech Recognition Over Digital Channels: Robustness and Standards, by Antonio Peinado and Jose Segura (Sept, 2006)

Pattern Recognition in Speech and Language Processing, by Wu Chou and Biing-Hwang Juang (Feb, 2003)

Speech Processing — A Dynamic and Optimization-Oriented Approach, by Li Deng and Doug O’Shaughnessy (June 2003)

Spoken Language Processing: A Guide to Theory, Algorithm and System Development, by Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon (April 2001)

Digital Speech Processing: Synthesis, and Recognition, Second Edition, by Sadaoki Furui (June, 2001)

Speech Communications: Human and Machine, Second Edition, by Douglas O’Shaughnessy(June, 2000)

Speech and Language Processing — An Introduction to Natural Language Processing, Computational Linguistics,