参考文献¶

[是]

[AB79]

Jont B Allen 和 David A Berkley. 一种用于高效模拟小房间声学的图像方法。 The Journal of the Acoustical Society of America, 65(4):943–950, 1979.

[ABD+20]

Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, 和 Gregor Weber。Common voice: 一个大规模多语言语音语料库。2020。 arXiv:1912.06670.

[BWT+21]

Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, 和其他人员。Xls-r: 在大规模数据上进行自监督跨语言语音表征学习。 arXiv预印本 arXiv:2111.09296, 2021.

[BZMA20]

Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, 和 Michael Auli. Wav2vec 2.0: 一个用于语音表示自监督学习的框架。2020. arXiv:2006.11477.

[BBL+08]

Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang, Sungbok Lee, and Shrikanth Narayanan. Iemocap: interactive emotional dyadic motion capture database. Language Resources and Evaluation, 42:335–359, 12 2008. doi:10.1007/s10579-008-9076-6.

[第69章]

Jack Capon。高分辨率频率-波数谱分析。IEEE proceedings, 57(8):1408–1418, 1969。

[CDiGangiB+21]

Roldano Cattoni, Mattia Antonino Di Gangi, Luisa Bentivogli, Matteo Negri, 和 Marco Turchi。Must-c：一个用于端到端语音翻译的多语言语料库。计算机语音与语言，66:101155，2021。URL：https://www.sciencedirect.com/science/article/pii/S0885230820300887，doi:https://doi.org/10.1016/j.csl.2020.101155。

[CCW+21]

陈国国，柴树洲，王冠波，杜佳宇，张伟强，温超，苏丹，Daniel Povey，Jan Trmal，张俊波，金明杰，Sanjeev Khudanpur，Shinji Watanabe，赵帅江，邹伟，李翔刚，姚旭辰，王永庆，王宇君，赵耀，和闫志勇。Gigaspeech：一个不断演进的多领域语音识别语料库，包含10,000小时的转录音频。发表于Proc. Interspeech 2021。2021年。

[CWC+22]

陈三元，王成毅，陈正阳，吴宇，刘树杰，陈卓，李金玉，仲野研一，吉冈拓也，肖雄，等。Wavlm：面向全栈语音处理的大规模自监督预训练。IEEE信号处理专题期刊，16(6):1505–1518，2022。

[CPS16]

Ronan Collobert, Christian Puhrsch, 和 Gabriel Synnaeve。Wav2letter：一个端到端的基于卷积网络的语音识别系统。2016。 arXiv:1609.03193。

[CBC+20]

Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, 和 Michael Auli. 用于语音识别的无监督跨语言表征学习. 2020. arXiv:2006.13979.

[CY21]

Erica Cooper 和 Junichi Yamagishi。今天的语音合成挑战中的声音与过去相比如何？arXiv 预印本 arXiv:2105.02373，2021 年。

[CPC+20]

Joris Cosentino, Manuel Pariente, Samuele Cornell, Antoine Deleforge, 和 Emmanuel Vincent. Librimix: 一个用于可推广语音分离的开源数据集。2020. arXiv:2005.11262.

[CSB+18]

Alice Coucke, Alaa Saade, Adrien Ball, Théodore Bluche, Alexandre Caulier, David Leroy, Clément Doumouro, Thibault Gisselbrecht, Francesco Caltagirone, Thibaut Lavril, and others. Snips 语音平台：一种为隐私优先语音界面设计的嵌入式语音语言理解系统。 arXiv 预印本 arXiv:1805.10190, 2018.

[DL82]

DC Dowson 和 BV666017 Landau。多元正态分布之间的Fréchet距离。 多元分析杂志, 12(3):450–455, 1982.

[Defossez21]

Alexandre Défossez. 混合频谱图和波形源分离。In ISMIR 2021音乐源分离研讨会论文集. 2021.

[FP21]

Marco Forgione 和 Dario Piga。Dynonet：一种用于学习动态系统的神经网络架构。国际自适应控制与信号处理杂志，35(4):612–626，2021。

[GKRR14]

Mark John Francis Gales, Kate Knill, Anton Ragni, 和 Shakti Prasad Rath。面向低资源语言的语音识别与关键词检测：CUEd 的 Babel 项目研究。发表于 SLTU。2014 年。

[图12]

Alex Graves. 使用循环神经网络进行序列转换。2012. arXiv:1211.3711.

[GL83]

D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换进行信号估计。In ICASSP '83. IEEE 国际声学、语音和信号处理会议，卷 8，804–807。1983。doi:10.1109/ICASSP.1983.1172092。

[GQC+20]

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, and Ruoming Pang. Conformer: convolution-augmented transformer for speech recognition. 2020. arXiv:2005.08100.

[HCC+14]

Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, 和 Andrew Y. Ng。Deep speech: scaling up end-to-end speech recognition。2014。 arXiv:1412.5567。

[HCE+17]

Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, Channing Moore, Manoj Plakal, Devin Platt, Rif A. Saurous, Bryan Seybold, Malcolm Slaney, Ron Weiss, 和 Kevin Wilson。用于大规模音频分类的卷积神经网络架构。在 国际声学、语音和信号处理会议（ICASSP） 中。2017年。网址：https://arxiv.org/abs/1609.09430。

[HIA+17]

Takuya Higuchi, Nobutaka Ito, Shoko Araki, Takuya Yoshioka, Marc Delcroix, 和 Tomohiro Nakatani. 基于具有空间先验的复高斯混合模型的在线MVDR波束成形器，用于噪声鲁棒的ASR。IEEE/ACM音频、语音和语言处理汇刊, 25(4):780–793, 2017.

[HIYN16]

Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, 和 Tomohiro Nakatani。使用时频掩码的鲁棒mvdr波束成形，用于噪声环境下的在线/离线语音识别。发表于 2016 IEEE国际声学、语音与信号处理会议（ICASSP），5210–5214。IEEE，2016年。

[HBT+21]

魏宁胡, 本杰明·博尔特, 姚宏·赫伯特·蔡, 库沙尔·拉克霍蒂亚, 鲁斯兰·萨拉胡丁诺夫, 和阿卜杜勒拉赫曼·穆罕默德。Hubert：通过隐藏单元的掩码预测进行自监督语音表征学习。2021。arXiv:2106.07447.

[IJ17]

Keith Ito 和 Linda Johnson。The lj speech dataset。https://keithito.com/LJ-Speech-Dataset/，2017。

[KPL+22]

Jacob Kahn, Vineel Pratap, Tatiana Likhomanenko, Qiantong Xu, Awni Hannun, Jeff Cai, Paden Tomasello, Ann Lee, Edouard Grave, Gilad Avidov, 和其他人员。Flashlight：推动机器学习工具的创新。arXiv预印本 arXiv:2201.12465, 2022.

[KES+18a]

Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成。2018. arXiv:1802.08435.

[KES+18b]

Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aäron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成。 CoRR, 2018. URL: http://arxiv.org/abs/1802.08435, arXiv:1802.08435.

[KPPK15]

Tom Ko, Vijayaditya Peddinti, Daniel Povey, 和 Sanjeev Khudanpur。用于语音识别的音频增强。发表于 Proc. Interspeech 2015, 3586–3589。2015年。 doi:10.21437/Interspeech.2015-711.

[KBV03]

John Kominek, Alan W Black, 和 Ver Ver. CMU Arctic 数据库用于语音合成。技术报告，2003年。

[KKB20]

Jungil Kong, Jaehyeon Kim, 和 Jaekyoung Bae。Hifi-gan：用于高效且高保真语音合成的生成对抗网络。In H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, 和 H. Lin，编辑，神经信息处理系统进展，第33卷，17022–17033。Curran Associates, Inc.，2020。URL：https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf。

[KTN+23]

Anurag Kumar, Ke Tan, Zhaoheng Ni, Pranay Manocha, Xiaohui Zhang, Ethan Henderson, and Buye Xu. Torchaudio-squim: 无需参考的语音质量与可懂度评估方法。 arXiv预印本 arXiv:2304.01448, 2023.

[LRI+19]

Loren Lugosch, Mirco Ravanelli, Patrick Ignoto, Vikrant Singh Tomar, 和 Yoshua Bengio. 用于端到端语音语言理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 编辑下，Interspeech会议论文集, 814–818. 2019.

[LM19]

Yi Luo 和 Nima Mesgarani。Conv-tasnet：超越理想时频幅度掩码的语音分离。IEEE/ACM Transactions on Audio, Speech, and Language Processing，27(8):1256–1266，2019年8月。URL: http://dx.doi.org/10.1109/TASLP.2019.2915167，doi:10.1109/taslp.2019.2915167。

[MK22]

Pranay Manocha 和 Anurag Kumar。通过 MOS 使用非匹配参考进行语音质量评估。 arXiv 预印本 arXiv:2206.12285, 2022。

[MRFB+15]

Xavier Anguera Miro, Luis Javier Rodriguez-Fuentes, Andi Buzo, Florian Metze, Igor Szoke, 和 Mikel Peñagarikano. Quesst2014: 在真实查询中评估零资源设置下的示例查询语音搜索。 2015 IEEE 国际声学、语音与信号处理会议（ICASSP）, 第 5833–5837 页, 2015.

[MPG29]

RV Mises 和 Hilda Pollaczek-Geiringer. 解方程的实用方法。 ZAMM-应用数学与力学杂志/Zeitschrift für Angewandte Mathematik und Mechanik, 9(1):58–77, 1929.

[我的14]

Gautham J Mysore. 我们能否将普通消费设备在现实环境中录制的语音自动转换为专业制作质量的语音？—一个数据集、见解和挑战。 IEEE Signal Processing Letters, 22(8):1006–1010, 2014.

[NCZ17]

Arsha Nagrani, Joon Son Chung, 和 Andrew Zisserman。Voxceleb：一个大规模的说话人识别数据集。arXiv预印本 arXiv:1706.08612, 2017。

[PCPK15]

Vassil Panayotov, Guoguo Chen, Daniel Povey, 和 Sanjeev Khudanpur。Librispeech：一个基于公共领域有声书的语音识别语料库。在 2015 IEEE 国际声学、语音与信号处理会议（ICASSP），卷，5206–5210。2015。 doi:10.1109/ICASSP.2015.7178964.

[PCZ+19]

Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, and Quoc V. Le. Specaugment: 一种用于自动语音识别的简单数据增强方法。Interspeech 2019, 2019年9月。URL: http://dx.doi.org/10.21437/Interspeech.2019-2680, doi:10.21437/interspeech.2019-2680.

[PBS13]

Nathanaël Perraudin, Peter Balazs, 和 Peter L. Søndergaard。一种快速的Griffin-Lim算法。发表于 2013 IEEE 信号处理在音频与声学中的应用研讨会，卷，1–4。2013。 doi:10.1109/WASPAA.2013.6701851。

[PTS+23]

Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, 和 Michael Auli。将语音技术扩展到1,000多种语言。2023。 arXiv:2305.13516。

[PXS+20]

Vineel Pratap, Qiantong Xu, Anuroop Sriram, Gabriel Synnaeve, 和 Ronan Collobert。Mls：一个用于语音研究的大规模多语言数据集。Interspeech 2020，2020年10月。URL：http://dx.doi.org/10.21437/Interspeech.2020-2826，doi:10.21437/interspeech.2020-2826。

[RLStoter+19]

Zafar Rafii, Antoine Liutkus, Fabian-Robert Stöter, Stylianos Ioannis Mimilakis, 和 Rachel Bittner。MUSDB18-HQ - musdb18 的未压缩版本。2019年12月。URL: https://doi.org/10.5281/zenodo.3338373, doi:10.5281/zenodo.3338373.

[RGC+20]

Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, 和其他人员。Interspeech 2020 深度噪声抑制挑战赛：数据集、主观测试框架和挑战结果。 arXiv 预印本 arXiv:2005.13981, 2020。

[RDelegliseEsteve12]

Anthony Rousseau, Paul Deléglise, 和 Yannick Estève. Ted-lium: 一个专用的自动语音识别语料库。在 语言资源与评估会议（LREC） 中，125–129。2012年。

[SY18]

Seyyed Saeed Sarfjoo 和 Junichi Yamagishi. Device recorded vctk（小规模子集版本）。2018.

[SBDokmanic18]

Robin Scheibler, Eric Bezzam, 和 Ivan Dokmanić. Pyroomacoustics: 一个用于音频房间模拟和阵列处理算法的 Python 包。发表于 2018 IEEE 国际声学、语音与信号处理会议（ICASSP）, 351–355. IEEE, 2018.

[SPW+18]

Jonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerrv-Ryan, and others. 通过将WaveNet条件化在梅尔频谱预测上实现自然的TTS合成。In 2018 IEEE国际声学、语音与信号处理会议（ICASSP）, 4779–4783. IEEE, 2018.

[SWW+21]

石阳阳，王永强，吴春阳，叶清风，陈朱利安，张弗兰克，黎杜克，和塞尔茨勒迈克。Emformer：基于高效内存变换器的低延迟流式语音识别声学模型。发表于ICASSP 2021 - 2021 IEEE国际声学、语音与信号处理会议（ICASSP），第6783–6787页。2021年。

[SWW+22]

石阳阳，吴春阳，王迪林，小Alex，Jay Mahadeokar，张晓辉，刘春喜，李柯，尚冠元，Varun Nagaraja，Ozlem Kalinli，和Mike Seltzer。基于非因果卷积的流式Transformer Transducer语音识别。在ICASSP 2022 - 2022 IEEE国际声学、语音与信号处理会议（ICASSP），卷，8277–8281。2022。doi:10.1109/ICASSP43922.2022.9747706。

[Smi20]

Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020年9月。网址：https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。

[SCP15]

David Snyder, Guoguo Chen, 和 Daniel Povey. MUSAN: 一个音乐、语音和噪声语料库。2015. arXiv:1510.08484v1. arXiv:1510.08484.

[SBA09]

Mehrez Souden, Jacob Benesty, 和 Sofiene Affes. 关于噪声抑制的最优频域多通道线性滤波. 在 IEEE音频、语音和语言处理汇刊, 第18卷, 260–276页. IEEE, 2009.

[SWT+22]

Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, 和 Yatharth Saraf。基于Conformer的自监督学习用于非语音音频任务。在 ICASSP 2022 - 2022 IEEE国际声学、语音和信号处理会议（ICASSP），卷，8862–8866。2022。doi:10.1109/ICASSP43922.2022.9746490。

[TEC01]

George Tzanetakis, Georg Essl, 和 Perry Cook。音频信号的自动音乐流派分类。2001年。网址：http://ismir2001.ismir.net/pdf/tzanetakis.pdf。

[VAlumae21]

Jörgen Valk 和 Tanel Alumäe. Voxlingua107：一个用于语音语言识别的数据集。In 2021 IEEE 语音语言技术研讨会 (SLT), 652–658. IEEE, 2021.

[WRiviereL+21]

王畅汉，Morgane Rivière，Ann Lee，Anne Wu，Chaitanya Talnikar，Daniel Haziza，Mary Williamson，Juan Miguel Pino，和Emmanuel Dupoux。Voxpopuli：一个大规模多语言语音语料库，用于表示学习、半监督学习和解释。CoRR，2021。URL：https://arxiv.org/abs/2101.00390，arXiv:2101.00390。

[Wei98]

R.L. Weide. 卡内基梅隆发音词典. 1998. URL: http://www.speech.cs.cmu.edu/cgi-bin/cmudict.

[YVM19]

Junichi Yamagishi, Christophe Veaux, 和 Kirsten MacDonald。CSTR VCTK语料库：用于CSTR语音克隆工具包的英语多说话人语料库（版本0.92）。2019年。 doi:10.7488/ds/2645.

[YF23]

Yu Chin-Yun 和 Fazekas György。使用可微LPC和声门流启发的波表进行歌唱语音合成。在 Augusto Sarti、Fabio Antonacci、Mark Sandler、Paolo Bestagini、Simon Dixon、Beici Liang、Gaël Richard 和 Johan Pauwels 编辑的 第24届国际音乐信息检索学会会议论文集，ISMIR 2023，意大利米兰，2023年11月5日至9日 中，667–675页。2023年。URL: https://doi.org/10.5281/zenodo.10265377, doi:10.5281/ZENODO.10265377.

[ZDC+19]

Heiga Zen, Viet-Trung Dang, Robert A. J. Clark, Yu Zhang, Ron J. Weiss, Ye Jia, Z. Chen, and Yonghui Wu. Libritts: 一个源自LibriSpeech的文本到语音语料库。 ArXiv, 2019.

[ZSN21]

Albert Zeyer, Ralf Schlüter, 和 Hermann Ney. 为什么CTC会导致尖峰行为？2021. arXiv:2105.14849.

[BrianMcFeeColinRaffelDawenLiang+15]

Brian McFee, Colin Raffel, Dawen Liang, Daniel P.W. Ellis, Matt McVicar, Eric Battenberg, 和 Oriol Nieto。Librosa：使用 Python 进行音频和音乐信号分析。收录于 Kathryn Huff 和 James Bergstra 编辑的《第 14 届 Python 科学会议论文集》中，第 18 – 24 页。2015 年。doi:10.25080/Majora-7b98e3ed-003.

[KahnRiviereZheng+20]

J. Kahn, M. Rivière, W. Zheng, E. Kharitonov, Q. Xu, P. E. Mazaré, J. Karadayi, V. Liptchinsky, R. Collobert, C. Fuegen, T. Likhomanenko, G. Synnaeve, A. Joulin, A. Mohamed, and E. Dupoux. Libri-light: 一个用于有限或无监督的语音识别的基准。In ICASSP 2020 - 2020 IEEE 国际声学、语音和信号处理会议（ICASSP）, 7669–7673. 2020. https://github.com/facebookresearch/libri-light.

[守卫者18]

P. Warden. 语音指令：一个有限词汇量语音识别数据集。 ArXiv e-prints, 2018年4月。URL: https://arxiv.org/abs/1804.03209, arXiv:1804.03209.

[维基百科贡献者]

维基百科贡献者。吸收（声学）——维基百科，自由百科全书。[在线]。网址：https://en.wikipedia.org/wiki/Absorption_(acoustics)。

参考文献¶

文档

教程

资源