引用¶
是的,不是。网址:http://www.openslr.org/1/。
Jont B Allen 和 David A Berkley。Image 方法,用于有效模拟小房间声学。美国声学学会杂志,65(4):943–950,1979 年。
罗珊娜·阿迪拉、梅根·布兰森、凯利·戴维斯、迈克尔·亨雷蒂、迈克尔·科勒、乔什·迈耶、鲁本·莫莱斯、林赛·桑德斯、弗朗西斯·泰尔斯和格雷戈尔·韦伯。Common voice:一个包含大量多语言的语音语料库。2020. arXiv:1912.06670.
Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等。Xls-r:大规模的自我监督跨语言语音表示学习。arXiv 预印本 arXiv:2111.09296,2021 年。
阿列克谢·巴耶夫斯基、亨利·周、阿卜杜勒拉赫曼·穆罕默德和迈克尔·奥利。Wav2vec 2.0:语音表示的自监督学习框架。2020. arXiv:2006.11477.
Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。Iemocap:交互式情感二元动作捕捉数据库。语言资源与评估, 42:335–359, 12 2008.doi:10.1007/s10579-008-9076-6.
杰克·卡彭。高分辨率频率波数频谱分析。IEEE 会议记录,57(8):1408–1418,1969 年。
罗尔达诺·卡托尼、马蒂亚·安东尼诺·迪甘吉、路易莎·本蒂沃利、马泰奥·内格里和马尔科·图尔奇。Must-c:用于端到端语音翻译的多语言语料库。计算机语音与语言,66:101155,2021 年。网址:https://www.sciencedirect.com/science/article/pii/S0885230820300887,doi:https://doi.org/10.1016/j.csl.2020.101155。
陈国国、柴树洲、王冠波、杜佳玉、张伟强、翁超、苏丹、Daniel Povey、Jan Trmal、张俊波、金明杰、Sanjeev Khudanpur、渡边真司、赵帅江、邹伟、李仙刚、姚旭辰、王永庆、王玉军、尤钊和闫志勇。Gigaspeech:一个不断发展的多域 asr 语料库,具有 10000 小时的转录音频。在 Proc. Interspeech 2021 中。2021.
Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao 等。Wavlm:用于全栈语音处理的大规模自我监督预训练。IEEE 信号处理精选主题杂志,16(6):1505–1518,2022 年。
罗南·科洛伯特、克里斯蒂安·普尔施和加布里埃尔·辛纳夫。Wav2letter:一种基于卷积网络的端到端语音识别系统。2016. arXiv:1609.03193.
亚历克西斯·康诺、阿列克谢·巴耶夫斯基、罗南·科洛伯特、阿卜杜勒拉赫曼·穆罕默德和迈克尔·奥利。用于语音识别的无监督跨语言表示学习。2020. arXiv:2006.13979.
Erica Cooper 和 Junichi Yamagishi。过去语音合成挑战中的声音与今天相比如何?arXiv 预印本 arXiv:2105.02373,2021 年。
Joris Cosentino、Manuel Pariente、Samuele Cornell、Antoine Deleforge 和 Emmanuel Vincent。Librimix:用于通用语音分离的开源数据集。2020. arXiv:2005.11262.
Alice Coucke、Alaa Saade、Adrien Ball、Théodore Bluche、Alexandre Caulier、David Leroy、Clément Doumouro、Thibault Gisselbrecht、Francesco Caltagirone、Thibaut Lafril 等。Snips 语音平台:用于私人设计语音界面的嵌入式口语理解系统。arXiv 预印本 arXiv:1805.10190,2018 年。
DC Dowson 和 BV666017 Landau。多元正态分布之间的 fréchet 距离。多变量分析杂志,12(3):450–455,1982 年。
亚历山大·德福塞斯。混合频谱图和波形源分离。在 ISMIR 2021 音乐源分离研讨会的会议记录中。2021.
Marco Forgione 和 Dario Piga。Dynonet:一种用于学习动态系统的神经网络架构。国际自适应控制与信号处理杂志,35(4):612–626,2021 年。
马克·约翰·弗朗西斯·盖尔斯、凯特·克尼尔、安东·拉格尼和沙克蒂·普拉萨德·拉斯。低资源语言的语音识别和关键字识别:cueed 的 babel 项目研究。在 SLTU.2014.
亚历克斯·格雷夫斯。使用递归神经网络进行序列转导。2012. arXiv:1211.3711.
D. Griffin 和 Jae Lim. 来自改进的短时傅里叶变换的信号估计。在 ICASSP '83 中。IEEE 声学、语音和信号处理国际会议,第 8 卷,804-807。1983. doi:10.1109/ICASSP.1983.1172092.
Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer:用于语音识别的卷积增强转换器。2020. arXiv:2005.08100.
Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。深度语音:扩大端到端语音识别。2014. arXiv:1412.5567.
肖恩·赫尔希、苏里什·乔杜里、丹尼尔 P. W. 埃利斯、乔特·格梅克、阿伦·詹森、查宁·摩尔、马诺伊·普拉卡尔、德文·普拉特、里夫·索鲁斯、布莱恩·塞博尔德、马尔科姆·斯兰尼、罗恩·韦斯和凯文·威尔逊。用于大规模音频分类的 CNN 架构。在声学、语音和信号处理国际会议 (ICASSP) 中。2017. 网址:https://arxiv.org/abs/1609.09430。
樋口拓哉、伊藤信孝、荒木翔子、吉冈拓也、马克·德尔克鲁瓦和中谷智宏。基于复杂高斯混合模型的在线 mvdr 波束形成器,具有噪声鲁棒 asr 的空间先验。IEEE/ACM 音频、语音和语言处理汇刊,25(4):780–793,2017 年。
Takuya Higuchi、Nobutaka Ito、Takuya Yoshioka 和 Tomohiro Nakatani。使用时频模板实现噪声在线/离线 asr 的稳健 mvdr 波束成形。2016 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),5210–5214。IEEE,2016 年。
Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov 和 Abdelrahman Mohamed。Hubert:通过隐藏单元的掩蔽预测进行自我监督的语音表示学习。2021. arXiv:2106.07447.
Keith Ito 和 Linda Johnson。lj 语音数据集。https://keithito.com/LJ-Speech-Dataset/,2017 年。
Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov 等。Flashlight:实现机器学习工具的创新。arXiv 预印本 arXiv:2201.12465,2022 年。
纳尔·卡尔赫布伦纳、埃里希·埃尔森、凯伦·西蒙尼扬、塞布·努里、诺曼·卡萨格兰德、爱德华·洛克哈特、弗洛里安·斯廷伯格、亚伦·范登奥德、桑德·迪勒曼和科雷·卡武克茨奥卢。高效的神经音频合成。2018. arXiv:1802.08435.
纳尔·卡尔赫布伦纳、埃里希·埃尔森、凯伦·西蒙尼扬、塞布·努里、诺曼·卡萨格兰德、爱德华·洛克哈特、弗洛里安·斯廷伯格、Aäron van den Oord、Sander Dieleman 和 Koray Kavukcuoglu。高效的神经音频合成。CoRR,2018 年。网址:http://arxiv.org/abs/1802.08435,arXiv:1802.08435。
Tom Ko、Vijayaditya Peddinti、Daniel Povey 和 Sanjeev Khudanpur。用于语音识别的音频增强。在 Proc. Interspeech 2015, 3586–3589 中。2015. doi:10.21437/Interspeech.2015-711.
John Kominek、Alan W Black 和 Ver Ver. 用于语音合成的 Cmu 北极数据库。技术报告,2003 年。
Jungil Kong、Jaehyeon Kim 和 Jaekyoung Bae。Hifi-gan:用于高效和高保真语音合成的生成对抗网络。在 H. Larochelle、M. Ranzato、R. Hadsell、MF Balcan 和 H. Lin 编辑的《神经信息处理系统进展》中,第 33 卷,17022-17033。Curran Associates, Inc.,2020 年。网址:https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf。
Anurag Kumar、Ke Tan、Zhaoheng Ni、Pranay Manocha、Xiaohui Zhang、Ethan Henderson 和 Buye Xu。Torchaudio-squim: torchaudio 中的无参考语音质量和清晰度测量。arXiv 预印本 arXiv:2304.01448,2023 年。
Loren Lugosch、Mirco Ravanelli、Patrick Ignoto、Vikrant Singh Tomar 和 Yoshua Bengio。用于端到端口语理解的语音模型预训练。在 Gernot Kubin 和 Zdravko Kacic 编辑的 Proc. of Interspeech, 814-818.2019.
Yi Luo 和 Nima Mesgarani。Conv-tasnet:超越了理想的时频幅度掩码,用于语音分离。IEEE/ACM 音频、语音和语言处理汇刊,27(8):1256–1266,2019 年 8 月。网址:http://dx.doi.org/10.1109/TASLP.2019.2915167,doi:10.1109/taslp.2019.2915167。
Pranay Manocha 和 Anurag Kumar。使用不匹配的参考通过 mos 进行语音质量评估。arXiv 预印本 arXiv:2206.12285,2022 年。
泽维尔·安格拉·米罗、路易斯·哈维尔·罗德里格斯-富恩特斯、安迪·布佐、弗洛里安·梅茨、伊戈尔·佐克和米克尔·佩纳加里卡诺。Quesst2014:使用真实查询在零资源设置中评估逐例查询语音搜索。2015 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),第 5833–5837 页,2015 年。
RV Mises 和 Hilda Pollaczek-Geiringer。Praktische verfahren der gleichungsauflösung.ZAMM-Journal of Applied Mathematics and Mechanics/Zeitschrift für Angewandte Mathematik und Mechanik, 9(1):58–77, 1929.
高塔姆 J 迈索尔。我们能否在真实环境中将常见消费设备上录制的语音自动转换为专业生产质量的语音?IEEE 信号处理快报,22(8):1006–1010,2014 年。
Arsha Nagrani、Joon Son Chung 和 Andrew Zisserman。Voxceleb:一个大规模的说话人识别数据集。arXiv 预印本 arXiv:1706.08612,2017 年。
Vassil Panayotov、Guoguo Chen、Daniel Povey 和 Sanjeev Khudanpur。Librispeech:基于公共领域有声读物的 asr 语料库。2015 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),卷,5206–5210。2015. doi:10.1109/ICASSP.2015.7178964.
Daniel S. Park、William Chan、Yu Zhang、Chung-Cheng Chiu、Barret Zoph、Ekin D. Cubuk 和 Quoc V. Le。Specaugment:一种用于自动语音识别的简单数据增强方法。Interspeech 2019,2019 年 9 月。网址:http://dx.doi.org/10.21437/Interspeech.2019-2680,doi:10.21437/interspeech.2019-2680。
Nathanaël Perraudin、Peter Balazs 和 Peter L. Søndergaard。一种快速的 griffin-lim 算法。2013 年 IEEE 信号处理在音频和声学中的应用研讨会,第 1-4 卷。2013. doi:10.1109/WASPAA.2013.6701851.
Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau 和 Michael Auli。将语音技术扩展到 1,000+ 种语言。2023. arXiv:2305.13516.
Vineel Pratap、Qiantong Xu、Anuroop Sriram、Gabriel Synnaeve 和 Ronan Collobert。Mls:用于语音研究的大规模多语言数据集。Interspeech 2020,2020 年 10 月。网址:http://dx.doi.org/10.21437/Interspeech.2020-2826,doi:10.21437/interspeech.2020-2826。
Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis 和 Rachel Bittner。MUSDB18-HQ - musdb18 的未压缩版本。2019 年 12 月。网址:https://doi.org/10.5281/zenodo.3338373,doi:10.5281/zenodo.3338373。
Chandan KA Reddy、Vishak Gopal、Ross Cutler、Ebrahim Beyrami、Roger Cheng、Harishchandra Dubey、Sergiy Matusevych、Robert Aichner、Ashkan Aazami、Sebastian Braun 等。Interspeech 2020 深度噪声抑制挑战赛:数据集、主观测试框架和挑战结果。arXiv 预印本 arXiv:2005.13981,2020 年。
Anthony Rousseau、Paul Delégise 和 Yannick Estève。Ted-lium:自动语音识别专用语料库。语言资源与评估会议 (LREC),125-129。2012.
赛义德·赛义德·萨夫朱 (Seyyed Saeed Sarfjoo) 和山岸纯一 (Junichi Yamagishi)。设备录制的 vctk (小子集版本)。2018.
Robin Scheibler、Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics:用于音频房间模拟和数组处理算法的 python 包。2018 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),351–355。IEEE,2018 年。
Jonathan Shen、Ruoming Pang、Ron J Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、Rj Skerrv-Ryan 等。通过在 mel 频谱图预测上调节 wavenet 来自然 tts 合成。2018 年 IEEE 声学、语音和信号处理国际会议 (ICASSP),4779–4783。IEEE,2018 年。
Yangyang Shi、Yongqiang Wang、Chunyang Wu、Ching-Feng Yeh、Julian Chan、Frank Zhang、Duc Le 和 Mike Seltzer。Emformer:基于高效 memory transformer 的声学模型,用于低延迟流式语音识别。在 ICASSP 2021 - 2021 IEEE 声学、语音和信号处理国际会议 (ICASSP) 中,6783–6787。2021.
Yangyang Shi、Chunyang Wu、Dilin Wang、Alex Xiao、Jay Mahadeokar、Xiaohui Zhang、Chunxi Liu、Ke Li、Yuan Shangguan、Varun Nagaraja、Ozlem Kalinli 和 Mike Seltzer。使用非因果卷积的基于 Streaming transformer transducer 的语音识别。在 ICASSP 2022 - 2022 IEEE 声学、语音和信号处理国际会议 (ICASSP) 中,卷,8277-8281。2022. doi:10.1109/ICASSP43922.2022.9747706.
朱利叶斯·史密斯。数字音频重采样主页“理想带宽插值理论”部分。2020 年 9 月。网址:https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。
David Snyder、Guoguo Chen 和 Daniel Povey。MUSAN:音乐、语音和噪音语料库。2015. arXiv:1510.08484v1.arXiv:1510.08484.
Mehrez Souden、Jacob Benesty 和 Sofiene Affes。在最佳频域多通道线性滤波上,用于降噪。在 IEEE 音频、语音和语言处理汇刊中,第 18 卷,260-276。IEEE,2009 年。
Sangeeta Srivastava、Yun Wang、Andros Tjandra、Anurag Kumar、Chunxi Liu、Kritika Singh 和 Yatharth Saraf。针对非语音音频任务的基于构象者的自我监督学习。在 ICASSP 2022 - 2022 IEEE 声学、语音和信号处理国际会议 (ICASSP) 中,卷,8862-8866。2022. doi:10.1109/ICASSP43922.2022.9746490.
George Tzanetakis、Georg Essl 和 Perry Cook。音频信号的自动音乐流派分类。2001. 网址:http://ismir2001.ismir.net/pdf/tzanetakis.pdf。
Jörgen Valk 和 Tanel Alumäe.Voxlingua107:用于口语识别的数据集。2021 年 IEEE 口语技术研讨会 (SLT),652-658。IEEE,2021 年。
Changhan Wang、Morgane Rivière、Ann Lee、Anne Wu、Chaitanya Talnikar、Daniel Haziza、Mary Williamson、Juan Miguel Pino 和 Emmanuel Dupoux。Voxpopuli:用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR,2021 年。网址:https://arxiv.org/abs/2101.00390,arXiv:2101.00390。
RL 魏德。卡内基梅隆大学发音词典。1998. 网址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict。
Junichi Yamagishi、Christophe Veaux 和 Kirsten MacDonald。CSTR VCTK 语料库:CSTR 语音克隆工具包(版本 0.92)的英语多说话人语料库。2019. doi:10.7488/ds/2645.
Chin-Yun Yu 和 György Fazekas.使用可微分 LPC 和声门流启发的波表进行歌唱语音合成。奥古斯托·萨尔蒂、法比奥·安东纳奇、马克·桑德勒、保罗·贝斯塔吉尼、西蒙·迪克森、贝西·梁、盖尔·理查德和约翰·鲍威尔斯主编,第 24 届国际音乐学会信息检索会议论文集,ISMIR 2023,意大利米兰,2023 年 11 月 5 日至 9 日,667-675。2023. 网址:https://doi.org/10.5281/zenodo.10265377,doi:10.5281/ZENODO.10265377。
Heiga Zen、Viet-Trung Dang、Robert A. J. Clark、Yu Zhang、Ron J. Weiss、Ye Jia、Z. Chen 和 Yonghui Wu。Libritts:从 librispeech 派生的用于文本转语音的语料库。ArXiv,2019 年。
阿尔伯特·泽耶、拉尔夫·施吕特和赫尔曼·内伊。为什么 ctc 会导致 peaky 行为?2021. arXiv:2105.14849.
布莱恩·麦克菲、科林·拉菲尔、达文·梁、丹尼尔·埃利斯、马特·麦克维卡、埃里克·巴滕贝格和奥里奥尔·涅托。Librosa:Python 中的音频和音乐信号分析。Kathryn Huff 和 James Bergstra 主编,第 14 届 Python 科学会议论文集,第 18 – 24 页。2015. doi:10.25080/Majora-7b98e3ed-003.
J. Kahn, M. Rivière, W. Zheng, E. Kharitonov, Q. Xu, PE Mazaré, J. Karadayi, V. Liptchinsky, R. Collobert, C. Fuegen, T. Likhomanenko, G. Synnaeve, A. Joulin, A. Mohamed, 和 E. Dupoux.Libri-light:有限或无监督的 asr 基准。在 ICASSP 2020 - 2020 IEEE 声学、语音和信号处理国际会议 (ICASSP) 中,7669–7673。2020. https://github.com/facebookresearch/libri-light。
P. 典狱长。语音命令:用于有限词汇语音识别的数据集。ArXiv 电子版画,2018 年 4 月。网址:https://arxiv.org/abs/1804.03209,arXiv:1804.03209。
维基百科贡献者。吸收(声学) — 维基百科,自由的百科全书。[在线]。URL:https://en.wikipedia.org/wiki/Absorption_(acoustics)。