本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
远程办公时,您的团队同时进行视频会议的语音通话质量是否有待提高呢?
如果有这个疑惑,建议您看看这本书。
本书围绕视频会议和远场语音识别两个热门的领域展开,将音频算法和工程实践连成一体,从基础理论到实践方案,全面介绍业内主流的可商用的实时语音处理技术。
语音算法开发中遇到的大部分问题均有涉及,并给出了比较专业的解法。
本书主要介绍基于互联网场景的交互式实时语音处理流程,内容涉及智能语音助手、智能音箱、音/视频会议等,具体包括实时语音信号处理、数字音效、网络传输编/解码和语音唤醒识别四部分。在阐述各部分内容时,本书从基本概念和原理入手,将理论和实践相结合,并细致分析了极具商业价值的实例,以帮助读者了解相关算法在工程上是如何实现的。另外,为便于有兴趣的读者快速进行算法验证并将其改进和应用到实际的项目中,作者也开源了书中算法的源码。
对于语音技术零基础的读者,建议按照本书的编排顺序阅读;本书也适合有一定语音理论基础的高等院校相关专业本科生和研究生;对从事语音相关产品的非技术人员来说,可从本书了解语音处理的主要内容和技术难点,对从事语音工程开发的技术人员来说,本书开源了一些极具商业价值的源码工程,具有较高的参考价值。
葛世超,硕士,毕业于西安电子科技大学雷达国防重点实验室,先后任职于阿里巴巴、rokid和Zoom,从事语音算法工作。
吕强,学士,吉林大学通信工程专业毕业,原微鲸电视系统软件音频专家。
钱思冲,武汉理工大学博士,2016年至2018年在rokid从事麦克风阵列信号研究,目前主要研究语音信号盲源分离。
张博伦,硕士研究生,毕业于中国海洋大学海底科学与探测技术教育部重点实验室。毕业后先后从事水声、音频信号处理等工作。
张硕,毕业于西安电子科技大学和法国高等电力学院,先后任职于诺基亚和Rokid,从事语音算法相关工作。
第一次看到这本书时,让我回想起了2016年第一次接触回声消除的场景,感触颇多。受2020年新冠肺炎疫情的影响,大部分人都使用了远程办公软件,几十人同时进行视频会议的语音通话质量是不是还有待提高呢?刚好本书以webRTC音频引擎为例解惑了我多年来的疑问。
—— 大米科技未来有限公司 王中伟
本书围绕视频会议和远场语音识别两个热门的垂直领域展开,将音频算法和工程实践连成一体,将理论知识落地到代码中,让算法不再玄乎。可以说,本书是音频领域从业者不可多得的好资料。
—— 音频算法专家 月崖
我是在找webRTC beamforming的相关资料时找到了作者的电子书,当时我很惊讶居然有人把它分享出来了,因为语音信号处理领域相比于语音识别、图像和NLP一直是相对封闭的。书中语音增强部分的内容都是作者近几年在工作中的总结,对从事信号处理工作的人来说具有较大的参考价值。
—— 华为语音信号处理工程师 龙韬臣
本书干货满满,语音算法开发中遇到的大部分问题均有涉及,而且给出了比较专业的解法。本书附赠的大量开源代码能加深读者对理论公式的理解,加快上手速度,是一本比较实用的语音技术类书籍。
—— 珠海全志科技股份有限公司 张宇
得知作者要将他在网络上的系列文章完善成《实时语音处理实践指南》图书后,十分期待,该书囊括了语音处理从麦克风收音到语音识别整个链条的各个方面,新增了许多技术细节和软件实现。再次阅读,依然有很多收获,希望本书可以让更多的读者了解实时语音处理技术。
—— 小米AI Lab 语音工程师 庄伟基
我在网上搜索语音增强的相关资料时发现了作者的电子书,该书从原理、公式、代码的角度详细解释了语音增强的各种算法,使我受益匪浅。此外,本书还介绍了产生声音的器件以及深度学习和语音识别技术,涵盖了语音处理中从物理层、前端处理到后端应用的整个过程,值得一读。
—— 厦门快商通科技股份公司高级语音算法工程师 叶志坚
本人是从事导航抗干扰、雷达阵列天线设计等工作的,书中对麦克风阵列中的回声消除、维纳滤波、抗噪、波束形成等技术的介绍,有助于本人阵列信号理论水平的提升,同时对本人所从事的基于小孔径阵列天线的导航抗干扰技术提供了新的思路。
—— 航天五院503所 徐振兴