본문 바로가기

전체 글

(41)
[논문들소개] Neural Text-to-Speech(TTS) Text-to-Speech(보통 TTS라고 줄여서 씀)는 텍스트를 오디오로 읽어주는 기술을 말함. 즉 입력으로 텍스트 혹은 캐릭터와 비스무리한게 들어오면 출력으로 웨이브폼 오디오가 생성되는 모델을 말함. 조금만 둘러봐도 여기저기에서 벌써 많이 사용되는 기술이라는 사실을 알 수 있음. 핸드폰에도 들어있고 웹브라우저에도 있고, 심지어 아파트 경비실 아저씨도 사용하실 수 있는 기술임. 그런데 사실 요 근래 몇 년사이에 이 TTS의 오디오 퀄리티가 상당히 높아졌음. 이제 별로 어색하지 않음. 우리 초딩 아들은 아직도 경비실에서 어떤 이모가 실제로 방송하는 줄 알음. 이는 모두 알다싶이 소위 DL(딥러닝)이라고 부르는 기술의 발전 덕분임. 그래서 여기에서는 TTS의 발전에 있어서 Neural Network이 적용..
[논문리뷰] Parallel Tacotron: Non-Autoregressive and Controllable TTS (ICASSP21) 제목: Parallel Tacotron: Non-Autoregressive and Controllable TTS 저자: Isaac Elias, Heiga Zen, Jonathan Shen, Yu Zhang, Ye Jia, Ron J. Weiss, Yonghui Yu 소속: Google 발표: ICASSP 2021 오디오샘플: https://google.github.io/tacotron/publications/parallel_tacotron/ - Parallel Tacotron - 이름대로 Tacotron에 기반하였지만 non-autoregressive방식의 neural TTS. - variational autoencoder-based residual encoder를 이용하여 speech의 잔잔한 특성을 ..
[논문리뷰] Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech (ICML21) 제목: Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech 저자: Cadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov 소속: Huawei Noah's Ark Lab, Higher School of Economics 발표: ICML 2021 논문: https://arxiv.org/abs/2105.06337 코드: https://github.com/huawei-noah/speech-backbones 오디오샘플: https://grad-tts.github.io/ - Grad-TTS - 멜스펙트로그램을 생성하는 디코더에서 diffusion model을 사용하는 모델. -..
[논문리뷰] Non-Autoregressive Neural Text-to-Speech (ICML20) 제목: Non-Autoregressive Neural Text-to-Speech 저자: Kainan Peng, Wei Ping, Zhao Song, Kixin Zhao 소속: Baidu Research 발표: ICML 2020 논문: https://arxiv.org/abs/1905.08459 오디오샘플: https://parallel-neural-tts-demo.github.io/ - ParaNet + WaveVAE - Baidu Research에서 DeepVoice3[Ping18], ClariNet[Ping19] 모델을 만든 후 속도 개선을 목표로 만든 모델. 따라서 전체 구조는 앞의 두 논문의 구조와 유사성이 많음. - text -> spectrogram 부분인 ParaNet은 DeepVoice3에서..
[논문리뷰] Efficient Neural Audio Synthesis (ICML18) 제목: Efficient Neural Audio Synthesis 저자: Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, Koray Kavukcuoglu 소속: DeepMind, Google Brain 발표: ICML 2018 논문: https://arxiv.org/abs/1802.08435 - WaveRNN - sequential model에서 sampling time을 어떻게 줄일 수 있을지 많은 고민이 담긴 논문 - 1) RNN구조를 이용하고 2) GPU 커널 코딩하고 3) weigh..
[논문리뷰] FastSpeech2: Fast and High-Quality End-to-End Text to Speech (ICLR21) 제목: FastSpeech2: Fast and High-Quality End-to-End Text to Speech 저자: Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu 소속: Zhejiang University, Microsoft Research Asia, Microsoft Azure Speech 발표: ICLR 2021 논문: https://arxiv.org/abs/2006.04558 오디오샘플: https://speechresearch.github.io/fastspeech2/ - FastSpeech 2와 FastSpeech 2s (아이폰이여 머여) - FastSpeech[Ren19]이 확실히 빠른 좋은 모델이긴 하지만 ..
[논문리뷰] End-to-End Adversarial Text-to-Speech (ICLR21) 제목: End-to-End Adversarial Text-to-Speech 저자: Jeff Donahue, Sander Dieleman, Mikolaj Binkowski, Erich Elsen, Karen Simonyan 소속: DeepMind 발표: ICLR 2021 논문: https://arxiv.org/abs/2006.03575 오디오샘플: https://www.deepmind.com/publications/end-to-end-adversarial-text-to-speech - EATS(End-to-end Adversarial Text-to-Speech) - 텍스트 입력에서부터 오디오 생성까지 end-to-end 방식으로 생성되는 TTS시스템 - 일단 자기팀에서 만든 보코더 GAN-TTS[Binko..
[논문리뷰] Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search (NeurIPS20) 제목: Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon 소속: Kakao Enterprise, Seoul National University 발표: NeurIPS 2020 논문: https://arxiv.org/abs/2005.11129 오디오샘플: https://jaywalnut310.github.io/glow-tts-demo/index.html 코드: https://github.com/jaywalnut310/glow-tts - Glow-TTS - flow를 사용하여 빠르게 TTS를 해보자. - 그런데 별도의 a..