参考文献¶
Yesno. URL: http://www.openslr.org/1/.
Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, 和 Gregor Weber。Common voice: 一个大规模多语言语音语料库。2020。 arXiv:1912.06670.
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, 和其他人员。Xls-r: 在大规模数据上进行自监督跨语言语音表征学习。 arXiv预印本 arXiv:2111.09296, 2021.
Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, 和 Michael Auli. Wav2vec 2.0: 一个用于语音表示自监督学习的框架。2020. arXiv:2006.11477.
Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang, Sungbok Lee, and Shrikanth Narayanan. Iemocap: interactive emotional dyadic motion capture database. Language Resources and Evaluation, 42:335–359, 12 2008. doi:10.1007/s10579-008-9076-6.
Jack Capon。高分辨率频率-波数谱分析。IEEE proceedings, 57(8):1408–1418, 1969。
陈国国,柴树洲,王冠波,杜佳宇,张伟强,温超,苏丹,Daniel Povey,Jan Trmal,张俊波,金明杰,Sanjeev Khudanpur,Shinji Watanabe,赵帅江,邹伟,李翔刚,姚旭辰,王永庆,王宇君,赵耀,和闫志勇。Gigaspeech:一个不断演进的多领域语音识别语料库,包含10,000小时的转录音频。发表于Proc. Interspeech 2021。2021年。
陈三元,王成毅,陈正阳,吴宇,刘树杰,陈卓,李金玉,仲野研一,吉冈拓也,肖雄,等。Wavlm:面向全栈语音处理的大规模自监督预训练。IEEE信号处理专题期刊,16(6):1505–1518,2022。
Ronan Collobert, Christian Puhrsch, 和 Gabriel Synnaeve。Wav2letter:一个端到端的基于卷积网络的语音识别系统。2016。 arXiv:1609.03193。
Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, 和 Michael Auli. 用于语音识别的无监督跨语言表征学习. 2020. arXiv:2006.13979.
Joris Cosentino, Manuel Pariente, Samuele Cornell, Antoine Deleforge, 和 Emmanuel Vincent. Librimix: 一个用于可推广语音分离的开源数据集。2020. arXiv:2005.11262.
Alice Coucke, Alaa Saade, Adrien Ball, Théodore Bluche, Alexandre Caulier, David Leroy, Clément Doumouro, Thibault Gisselbrecht, Francesco Caltagirone, Thibaut Lavril, and others. Snips 语音平台:一种为隐私优先语音界面设计的嵌入式语音语言理解系统。 arXiv 预印本 arXiv:1805.10190, 2018.
Alexandre Défossez. 混合频谱图和波形源分离。In ISMIR 2021音乐源分离研讨会论文集. 2021.
Mark John Francis Gales, Kate Knill, Anton Ragni, 和 Shakti Prasad Rath。面向低资源语言的语音识别与关键词检测:CUEd 的 Babel 项目研究。发表于 SLTU。2014 年。
Pegah Ghahremani, Bagher BabaAli, Daniel Povey, Korbinian Riedhammer, Jan Trmal, 和 Sanjeev Khudanpur. 一种针对自动语音识别优化的音高提取算法。收录于 2014 IEEE 国际声学、语音与信号处理会议 (ICASSP),卷号,第 2494–2498 页。2014 年。doi:10.1109/ICASSP.2014.6854049。
Alex Graves. 使用循环神经网络进行序列转换。2012. arXiv:1211.3711.
D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换进行信号估计。In ICASSP '83. IEEE 国际声学、语音和信号处理会议,卷 8,804–807。1983。doi:10.1109/ICASSP.1983.1172092。
Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, and Ruoming Pang. Conformer: convolution-augmented transformer for speech recognition. 2020. arXiv:2005.08100.
Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, 和 Andrew Y. Ng。Deep speech: scaling up end-to-end speech recognition。2014。 arXiv:1412.5567。
Takuya Higuchi, Nobutaka Ito, Shoko Araki, Takuya Yoshioka, Marc Delcroix, 和 Tomohiro Nakatani. 基于具有空间先验的复高斯混合模型的在线MVDR波束成形器,用于噪声鲁棒的ASR。IEEE/ACM音频、语音和语言处理汇刊, 25(4):780–793, 2017.
Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, 和 Tomohiro Nakatani。使用时频掩码的鲁棒mvdr波束成形,用于噪声环境下的在线/离线语音识别。发表于 2016 IEEE国际声学、语音与信号处理会议(ICASSP),5210–5214。IEEE,2016年。
魏宁 胡, 本杰明·博尔特, 姚宏·赫伯特·蔡, 库沙尔·拉克霍蒂亚, 鲁斯兰·萨拉胡丁诺夫, 和阿卜杜勒拉赫曼·穆罕默德。Hubert:通过隐藏单元的掩码预测进行自监督语音表征学习。2021。arXiv:2106.07447.
Keith Ito 和 Linda Johnson。The lj speech dataset。https://keithito.com/LJ-Speech-Dataset/,2017。
Jacob Kahn, Vineel Pratap, Tatiana Likhomanenko, Qiantong Xu, Awni Hannun, Jeff Cai, Paden Tomasello, Ann Lee, Edouard Grave, Gilad Avidov, 和其他人员。Flashlight:推动机器学习工具的创新。arXiv预印本 arXiv:2201.12465, 2022.
Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成。2018. arXiv:1802.08435.
Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aäron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成。 CoRR, 2018. URL: http://arxiv.org/abs/1802.08435, arXiv:1802.08435.
Tom Ko, Vijayaditya Peddinti, Daniel Povey, 和 Sanjeev Khudanpur。用于语音识别的音频增强。发表于 Proc. Interspeech 2015, 3586–3589。2015年。 doi:10.21437/Interspeech.2015-711.
John Kominek, Alan W Black, 和 Ver Ver. CMU Arctic 数据库用于语音合成。技术报告,2003年。
Loren Lugosch, Mirco Ravanelli, Patrick Ignoto, Vikrant Singh Tomar, 和 Yoshua Bengio. 用于端到端语音语言理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 编辑下,Interspeech会议论文集, 814–818. 2019.
Yi Luo 和 Nima Mesgarani。Conv-tasnet:超越理想时频幅度掩码的语音分离。IEEE/ACM Transactions on Audio, Speech, and Language Processing,27(8):1256–1266,2019年8月。URL: http://dx.doi.org/10.1109/TASLP.2019.2915167,doi:10.1109/taslp.2019.2915167。
Xavier Anguera Miro, Luis Javier Rodriguez-Fuentes, Andi Buzo, Florian Metze, Igor Szoke, 和 Mikel Peñagarikano. Quesst2014: 在真实查询中评估零资源设置下的示例查询语音搜索。 2015 IEEE 国际声学、语音与信号处理会议(ICASSP), 第 5833–5837 页, 2015.
RV Mises 和 Hilda Pollaczek-Geiringer. 解方程的实用方法。 ZAMM-应用数学与力学杂志/Zeitschrift für Angewandte Mathematik und Mechanik, 9(1):58–77, 1929.
Arsha Nagrani, Joon Son Chung, 和 Andrew Zisserman。Voxceleb:一个大规模的说话人识别数据集。arXiv预印本 arXiv:1706.08612, 2017。
Vassil Panayotov, Guoguo Chen, Daniel Povey, 和 Sanjeev Khudanpur。Librispeech:一个基于公共领域有声书的语音识别语料库。在 2015 IEEE 国际声学、语音与信号处理会议(ICASSP),卷,5206–5210。2015。 doi:10.1109/ICASSP.2015.7178964.
Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, and Quoc V. Le. Specaugment: 一种用于自动语音识别的简单数据增强方法。Interspeech 2019, 2019年9月。URL: http://dx.doi.org/10.21437/Interspeech.2019-2680, doi:10.21437/interspeech.2019-2680.
Nathanaël Perraudin, Peter Balazs, 和 Peter L. Søndergaard。一种快速的Griffin-Lim算法。发表于 2013 IEEE 信号处理在音频与声学中的应用研讨会,卷,1–4。2013。 doi:10.1109/WASPAA.2013.6701851。
Vineel Pratap, Qiantong Xu, Anuroop Sriram, Gabriel Synnaeve, 和 Ronan Collobert。Mls:一个用于语音研究的大规模多语言数据集。Interspeech 2020,2020年10月。URL:http://dx.doi.org/10.21437/Interspeech.2020-2826,doi:10.21437/interspeech.2020-2826。
Zafar Rafii, Antoine Liutkus, Fabian-Robert Stöter, Stylianos Ioannis Mimilakis, 和 Rachel Bittner。MUSDB18-HQ - musdb18 的未压缩版本。2019年12月。URL: https://doi.org/10.5281/zenodo.3338373, doi:10.5281/zenodo.3338373.
Anthony Rousseau, Paul Deléglise, 和 Yannick Estève. Ted-lium: 一个专用的自动语音识别语料库。在 语言资源与评估会议(LREC) 中,125–129。2012年。
Seyyed Saeed Sarfjoo 和 Junichi Yamagishi. Device recorded vctk(小规模子集版本)。2018.
Jonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerrv-Ryan, and others. 通过将WaveNet条件化在梅尔频谱预测上实现自然的TTS合成。In 2018 IEEE国际声学、语音与信号处理会议(ICASSP), 4779–4783. IEEE, 2018.
石阳阳,王永强,吴春阳,叶清风,陈朱利安,张弗兰克,黎杜克,和塞尔茨勒迈克。Emformer:基于高效内存变换器的低延迟流式语音识别声学模型。发表于ICASSP 2021 - 2021 IEEE国际声学、语音与信号处理会议(ICASSP),第6783–6787页。2021年。
Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020年9月。网址:https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。
Mehrez Souden, Jacob Benesty, 和 Sofiene Affes. 关于噪声抑制的最优频域多通道线性滤波. 在 IEEE音频、语音和语言处理汇刊, 第18卷, 260–276页. IEEE, 2009.
George Tzanetakis, Georg Essl, 和 Perry Cook。音频信号的自动音乐流派分类。2001年。网址:http://ismir2001.ismir.net/pdf/tzanetakis.pdf。
Jörgen Valk 和 Tanel Alumäe. Voxlingua107:一个用于语音语言识别的数据集。In 2021 IEEE 语音语言技术研讨会 (SLT), 652–658. IEEE, 2021.
王畅汉,Morgane Rivière,Ann Lee,Anne Wu,Chaitanya Talnikar,Daniel Haziza,Mary Williamson,Juan Miguel Pino,和Emmanuel Dupoux。Voxpopuli:一个大规模多语言语音语料库,用于表示学习、半监督学习和解释。CoRR,2021。URL:https://arxiv.org/abs/2101.00390,arXiv:2101.00390。
R.L. Weide. 卡内基梅隆发音词典. 1998. URL: http://www.speech.cs.cmu.edu/cgi-bin/cmudict.
Junichi Yamagishi, Christophe Veaux, 和 Kirsten MacDonald。CSTR VCTK语料库:用于CSTR语音克隆工具包的英语多说话人语料库(版本0.92)。2019年。 doi:10.7488/ds/2645.
Heiga Zen, Viet-Trung Dang, Robert A. J. Clark, Yu Zhang, Ron J. Weiss, Ye Jia, Z. Chen, and Yonghui Wu. Libritts: 一个源自LibriSpeech的文本到语音语料库。 ArXiv, 2019.
Brian McFee, Colin Raffel, Dawen Liang, Daniel P.W. Ellis, Matt McVicar, Eric Battenberg, 和 Oriol Nieto。Librosa:使用 Python 进行音频和音乐信号分析。收录于 Kathryn Huff 和 James Bergstra 编辑的《第 14 届 Python 科学会议论文集》中,第 18 – 24 页。2015 年。doi:10.25080/Majora-7b98e3ed-003.
J. Kahn, M. Rivière, W. Zheng, E. Kharitonov, Q. Xu, P. E. Mazaré, J. Karadayi, V. Liptchinsky, R. Collobert, C. Fuegen, T. Likhomanenko, G. Synnaeve, A. Joulin, A. Mohamed, and E. Dupoux. Libri-light: 一个用于有限或无监督的语音识别的基准。In ICASSP 2020 - 2020 IEEE 国际声学、语音和信号处理会议(ICASSP), 7669–7673. 2020. https://github.com/facebookresearch/libri-light.
P. Warden. 语音指令:一个有限词汇量语音识别数据集。 ArXiv e-prints, 2018年4月。URL: https://arxiv.org/abs/1804.03209, arXiv:1804.03209.