书籍详情
《人工智能出版工程人工智能:语音识别理解与实践》[57M]百度网盘|亲测有效|pdf下载
  • 人工智能出版工程人工智能:语音识别理解与实践

  • 出版社:电子工业出版社
  • 出版时间:2020-11
  • 热度:7396
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

  《人工智能出版工程 人工智能:语音识别理解与实践》是全面且深入介绍语音识别及理解相关技术细节的专著。
  与我们在2014年出版的《解析深度学习:语音识别实践》相比,《人工智能出版工程 人工智能:语音识别理解与实践》在它的基础上做了大量改写,并对内容有大幅补充,详细总结了新的语音识别算法及应用技术以及在口语对话系统研究中基于深度学习的自然语言处理技术。
  《人工智能出版工程 人工智能:语音识别理解与实践》首先概要介绍语音识别、口语理解和人机对话的基本概念与理论:接着全面深入地依次详述传统声学模型、深层神经网络在语音识别中的应用及分析、先进深度学习模型在语音识别中的应用、高级语音识别方法、复杂场景下的语音识别、以及口语理解及对话系统的深度学习实践。书中涉及的所有算法及技术细节都有详尽的参考文献,提供了深度学习在语音识别和口语对话理解中的应用全景。
  《人工智能出版工程 人工智能:语音识别理解与实践》适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读。

作者简介

俞栋博士是国际电气电子工程师学会会士(IEEE Fellow)、国际计算机学会杰出科学家(ACM Distinguished Scientist)。他现任腾讯人工智能实验室副主任、腾讯公司杰出科学家,并兼任香港中文大学(深圳)、上海交通大学、浙江大学等多所高校的客座/兼职教授。加入腾讯前,他是微软雷德蒙研究院语音与对话系统首席研究员。他是语音识别和深度学习方向的著名学者,出版了两本专著和200多篇论文(google scholar 引用近3万)。他是80余项专利的发明人以及深度学习开源软件CNTK的发起人和主要作者之一。他在基于深度学习的语音识别和分离技术上的一系列开创性工作,极大的推动了语音处理领域的发展。他的工作获得了2005年ACMSE最佳论文奖以及2013年和2016年IEEE 信号处理学会最佳论文奖。俞栋博士曾担任IEEE语音语言处理专业委员会委员、IEEE西雅图分会副主席、和APSIPA杰出讲师,也曾任IEEE/ACM音频、语音及语言处理汇刊和IEEE信号处理杂志等期刊的副编辑、以及多个国际会议的技术委员会和组织委员会成员。

内页插图

目录

第1章 简介
1.1 自动语音识别:更好的沟通之桥
1.1.1 人类之间的交流
1.1.2 人机交流
1.2 语音识别系统的基本结构
1.3 口语理解与人机对话系统
1.4 全书结构

第Ⅰ部分 传统声学模型
第2章 混合高斯模型
2.1 随机变量
2.2 高斯分布和混合高斯随机变量
2.3 参数估计
2.4 采用混合高斯分布对语音特征建模
第3章 隐马尔可夫模型及其变体
3.1 介绍
3.2 马尔可夫链
3.3 序列与模型
3.3.1 隐马尔可夫模型的性质
3.3.2 隐马尔可夫模型的仿真
3.3.3 隐马尔可夫模型似然度的计算
3.3.4 计算似然度的高效算法
3.3.5 前向与后向递归式的证明
3.4 期望最大化算法及其在学习HMM参数中的应用
3.4.1 期望最大化算法介绍
3.4.2 使用EM算法来学习HMM参数——Baum-Welch算法
3.5 用于解码HMM状态序列的维特比算法
3.5.1 动态规划和维特比算法
3.5.2 用于解码HMM状态的动态规划算法
3.6 隐马尔可夫模型和生成语音识别模型的变体
3.6.1 用于语音识别的GMM-HMM模型
3.6.2 基于轨迹和隐藏动态模型的语音建模和识别
3.6.3 使用生成模型HMM及其变体解决语音识别问题

第Ⅱ部分 深层神经网络在语音识别中的应用及分析
第4章 全连接深层神经网络
4.1 全连接深层神经网络框架
4.2 使用误差反向传播进行参数训练
4.2.1 训练准则
4.2.2 训练算法
4.3 实际应用
4.3.1 数据预处理
4.3.2 模型初始化
4.3.3 权重衰减
4.3.4 丢弃法
4.3.5 批规范化
……

第Ⅲ部分 先进深度学习模型在语音识别中的应用
第Ⅳ部分 高级语音识别方法
第Ⅴ部分 复杂场景下的语音识别
第Ⅵ部分 口语理解及对话系统的深度学习实践
第Ⅶ部分 总结及展望

缩略词表
作者简介
参考文献

前言/序言

  以自然语言人机交互为主要目标的智能语音和语言处理是人工智能的核心领域之一,近几十年来一直是研究的热点。尤其是近十年,深度学习的迅速发展使得智能语音及语言处理的研究热情被极大地点燃,学术界和工业界都热忱地参与进来,产生了一系列重大进展。这一系列新的技术是智能语音及语言处理研究历史上的重要里程碑,很有必要被系统地总结。
  我们在2014年出版的《解析深度学习:语音识别实践》一书中,比较全面地介绍了2014年之前深度学习在“隐马尔可夫模型+n元词组语言模型”经典语音识别框架下的应用技术细节。以深度学习的初始经典模型——深层神经网络(Deep Neural Network,DNN)为基础,讲述了深度学习的基本方法,及其在语音识别的声学建模中的各类技术细节,并介绍了循环神经网络(Recurrent Neural Network,RNN)和长短时记忆(Long Short Term Memory,LSTM)网络的基础应用。
  2014-2019年,随着工业界对自然口语交互系统的应用热情空前高涨,以及研究界在基于深度学习的语音和语言处理技术上的大幅进步,一系列新的甚至颠覆性的理论、技术、算法应用产生了,这使得语音识别系统在经典大词汇连续语音识别任务上的错误率大幅下降,甚至逼近了人类水平。同时,基于深度学习的自然语言处理技术也取得了长足进展,尤其是任务型口语对话系统的各个模块都广泛采用了深度学习技术并有了提升。因此,我们决定在《解析深度学习:语音识别实践》一书的基础上,改写并补充大量内容,详细总结新的语音识别算法及应用技术,以及口语对话系统中基于深度学习的自然语言处理技术。