본문 바로가기

introduction

[논문들소개] Neural Text-to-Speech(TTS)

Text-to-Speech(보통 TTS라고 줄여서 씀)는 텍스트를 오디오로 읽어주는 기술을 말함. 즉 입력으로 텍스트 혹은 캐릭터와 비스무리한게 들어오면 출력으로 웨이브폼 오디오가 생성되는 모델을 말함. 조금만 둘러봐도 여기저기에서 벌써 많이 사용되는 기술이라는 사실을 알 수 있음. 핸드폰에도 들어있고 웹브라우저에도 있고, 심지어 아파트 경비실 아저씨도 사용하실 수 있는 기술임.

 

그런데 사실 요 근래 몇 년사이에 이 TTS의 오디오 퀄리티가 상당히 높아졌음. 이제 별로 어색하지 않음. 우리 초딩 아들은 아직도 경비실에서 어떤 이모가 실제로 방송하는 줄 알음. 이는 모두 알다싶이 소위 DL(딥러닝)이라고 부르는 기술의 발전 덕분임. 그래서 여기에서는 TTS의 발전에 있어서 Neural Network이 적용된 이후에 기술의 발전에 대해서 한번 살펴보겠음. 전체 내용 구성은 [Tan21]을 따랐고 여기에 현재까지(2022년 8월) 공개된 최신 논문들이 추가되었음.

 

I. History

그래도 본격적으로 시작하기 전에 TTS 역사를 살짝 살펴볼 필요가 있음. '말하는 기계'를 처음으로 만든 것은 아마도 18세기후반정도로 생각됨(헝가리의 한 과학자가 발명했다함). 컴퓨터를 사용하여 만든 것은 20세기 중반부터 시작하는데, 약 50년간 다양한 기술들이 사용되었음. 옛 기술(?)들을 분류해보면 먼저,

 

1) Articulatory Synthesis: 사람의 입술, 혀, 음성 기관을 시뮬레이션해서 만드는 기술임. 이론적으로 잘되면 최고일 것임. 하지만 딱 봐도 어려움. 따라서 아래 두 종류가 더 많이 사용되었음.

 

2) Formant Synthesis: 사람의 소리는 음성 기관에서 어떤 소리를 필터링해서 만들어내는 소리라고도 볼 수 있음. 소위 source-filter 모델인데, 기본 음(예를 들어 단일 피치)에 이런저런 필터를 더해서 사람의 소리처럼 만드는 방법임(additive synthesis라고 부름). 매우 클래시컬 방식이지면 여전히 널리 연구되고 있음.

 

3) Concatenative Synthesis: 이제 데이터를 사용하는 모델. 온갖 종류의 스피치 조각을 만들어 놓고 이걸 잘 연결해서(cancatenative) 긴 오디오를 만듬. 간단한 예로 0부터 9까지의 목소리를 녹음하고 전화번호를 이 소리들을 연결하여 불러줄 수 있음. 실제 데이터를 사용하기 때문에 괜찮게 들릴 수 있음. 하지만 예상가능하듯이 목소리에 별로 영혼(?)이 없음. 따라서 보다 정교한 음성 모델을 만들고자 노력하여 아래 방법이 제안되었음.

 

4) Statistical Parametric  Speech Synthesis(SPSS): 어떤 음성(acoustic) 모델을 만들고 모델 파라미터를 추측하고 이용하여 오디오를 생성해 내는 모델임. 크게 3가지 컴퍼넌트로 나눌 수 있는데, 먼저 인풋 텍스트를 언어학적 특성(linguistic feature)로 바꿔주는 'text anlysis', linguistic feature를 음향학적 특성(acoustic feature)로 바꿔주는 'acoustic model', 마지막으로 acoustic feature을 오디오로 바꿔주는 'vocoder' 부분임. 이 분야에서 가장 대세로 사용되었던 acoustic model은 hidden Markov model(HMM)이었음. HMM을 쓰면 확실히 예전보다 개선된 acoustic feature를 만들 수 있었음. 하지만 여전히 결과 오디오는 로봇 소리같은 아직 부족한 수준의 결과들이 대다수였음.

 

(그림 1)

 

5) Neural TTS: 2010년대 DL의 시대로 들어오면서 이제 여러 새로운 neural network들에 기반한 모델들이 개발되었음. 이들은 점차 HMM을 대체하여 'acoustic model' 부분에 쓰이게 되었는데 이로 인해 점차 결과의 퀄리티가 더 높아졌음. 어찌보면 SPSS의 발전 형태라고도 생각 할 수 있지만, 점차 모델들의 성능이 높아지면서 위의 3 컴퍼넌트을 점차 단순화시키는 방향으로 발전하였음. 예를 들어 아래 그림에서 위(0)에서 아래(4) 방향으로 발전해오고 있다고 볼 수 있음.

 

(그림 2)

 

현재(2022년)에 소개되고 있는 많은 연구결과들은 대다수 3번에 속하며, (가장 어려운) 4번을 성공한 모델들이 속속히 소개되고 있음. 따라서 이 글에서는 3번과 4번 모델들을 중점적으로 살펴보겠음. 그리고 크게 3개의 모델들로 구분해서 진행하려함. TTS논문들을 읽어보면 대부분 이 3가지 중 하나를 중점적으로 다루고 있음.

 

- Acoustic Model: 입력으로 character(텍스트)혹은 phoneme(음소; 발음단위)을 받아서 어떠한 acoustic feature를 만드는 모델. 요즘 대부분의 acoustic feature는 mel-spectrogram을 의미함.

- Vocoder: 입력으로 mel-spectrogram(및 유사한 스펙트로그램)을 받아서 실제 오디오를 생성하는 모델.

- Fully End-to-End TTS Model: 입력으로 character혹은 phoneme을 받아서 오디오를 바로 생성해버리는 모델.

 

 

II. Text Analysis

시작하기 전에 간단하게 문자 텍스트(character)를 언어학적 특성(linguistic feature)로 바꾸는 Text Analysis부분에 대해서 간단히 살펴보고 시작. Text Analysis는 입력으로 들어온 텍스트를 이후의 synthesis에서 사용하기 좋은 형태로 만들기 위하여 바꾸는 부분으로 몇 가지 기술들이 적용될 수 있음.

 

1) text normalization: 약자나 숫자로 되어 있는 부분을 발음나는 데로 바꾸어줌. 예를 들어 1989를 'nineteen eighty nine' 으로 바꾸어주는 부분

 

2) word segmentation: 중국어나 한국어 같은 문자기반 언어에서 필요한 부분인데, 예를 들어 '가방' 을 하나의 단어로 볼 것인지 아니면 '가' '방' 이라고 따로 볼 것인지를 문맥을 보고 결정하는 부분.

 

3) part-of-speech tagging: POS라고 학교다닐 때 배웠던 '품사'를 분석하는 부분. 즉 동사, 명사, 전치사 등등이 분석이 되어 있으면 분명 그 뒤에 작업이 편해질 것임.

 

4) prosody prediction: TTS에서 prosody라는 단어를 심심치 않게 찾아볼 수 있는데, 구지 한국말로 바꾼다면 '운율' 정도의 느낌. 문장의 어떤 부분에서 강세가 들어가고 어떻게 각 부분의 길이가 바뀌는지, 톤은 어떻게 변하는지등에 대한 미묘한 느낌을 나타내는 말. 이런 것이 없다면 정말 '로보트가 말하는 것' 같은 느낌의 소리가 만들어질 것임. 특히 영어같은 (stress기반) 언어가 이런 부분에서 변화가 심한데 정도의 차이가 있을 뿐이지 어떠한 언어든지 고유한 prosody가 있음. 만일 텍스트를 보고 이러한 prosody를 예측할 수 있다면 분명 도움이 될 것임. 예를 들어 텍스트 마지막에 '?' 이 있다면 위로 올라가는 톤이 만들어지는 것이 자연스러움.

 

5) Grapheme-to-phoneme (G2P): 같은 스펠링의 단어여도 발음이 다르게 되는 부분이 많음. 예를 들어 'resume'이라는 단어는 어떨때는 'rizju:m' 으로, 어떨때는 'rezjumei' 라고 발음될 것임. 이 또한 전체 텍스트를 보고 문맥을 살펴야 하는 문제. 따라서 문자(grapheme)를 발음(phoneme)으로 바꾸어주는 부분이 우선된다면 그 뒤에 일들이 더 쉽게 풀릴 것임. 즉 'speech'를 's p iy ch' 등의 발음기호 형식으로 바꾸어주는 부분.

 

예전 SPSS 시대에는 이렇게 여러 가지 부분들을 추가하고 발전시켜 결과 오디오의 퀄리티를 높이곤 했었음. neural TTS에서는 이 부분들이 많이 간단해지긴 했는데 아직까지도 분명 필요한 부분들이 있음. 예를 들어 아직도 1)번 text normalization이나 5)번 G2P는 기본적으로 먼저 진행된 후 인풋으로 들어가는 경우가 많음. 인풋으로 character와 phoneme 두가지를 모두 받는 것이 모두 가능하다라고 쓰여진 논문들도 실제로 읽다보면 '사실은.. phoneme을 입력으로 받을 때가 결과가 더 좋음' 등으로 쓰여진 경우가 많음. 그래도 예전에 비해서 많이 간단해졌으므로 대부분 neural TTS에서는 Text Analysis부분은 별도로 취급하지 않고 간단한 전처리 정도의 느낌으로 생각함. 특히 G2P의 경우 영어[Chae18], 중국어[Park20], 한국어[Kim21d]등 여러 연구들이 진행되었고 사용가능한 오픈소스도 구할 수 있음.

 

III. Acoustic Model

Acoustic Model은 입력으로 character나 phoneme등을 받아서, 혹은 Text Analysis부분에서 만들어진 linguistic feature들을 받아서, acoustic feature를 생성해주는 부분을 말함. 앞서 언급한 것처럼 SPSS 시대에 Acoustic Model은 HMM(Hidden Markov Model)이 크게 주름을 잡았다가 슬슬 뉴럴 네트워크 기술들이 들어와서 대체하기 시작함. 예를들어 [Zen13][Qian14]에서는 HMM을 DNN으로 바꾸었더니 더 좋아졌다는 것을 보여줌. 하지만 스피치 같은 time series에는 RNN계열이 더 적합할 수도 있음. 따라서 그 이후 [Fan14][Zen15]에서는 성능을 높이기 위하여 LSTM등의 모델을 사용함. 하지만 뉴럴네트워크 모델들이 사용되긴 했지만 여전히 이러한 모델들은 입력으로 linguistic feature들을 받고 아웃풋으로는 MCC(mel-cepstral coefficients), BAP(band aperiodicities), LSP(line spectral pairs), LinS(linear-spectrogram), F0(fundamental frequency)등을 내보냄. 따라서 이러한 모델들은 개선된 SPSS 모델 정도로 생각할 수 있음.

 

앤드류 응(Andrew Ng)이 바이두 리서치(Baidu Research)에 있던 당시에 발표되었던 DeepVoice[Arık17a]는 사실 SPSS모델에 더 가까움. G2P모듈, phoneme의 바운더리를 찾는 모듈, phoneme의 길이를 예측하는 모듈, F0을 찾는 모듈등 여러 부분으로 되어 있고 각각 모듈들에 이런저런 뉴럴네트워크 모델들이 활용되었음. 그 후 발표한 DeepVoice 2[Arık17b] 또한 첫번째 버전의 성능 개선 및 멀티스피커 버전으로 볼 수 있지만 전체적인 구조는 비슷함. 

 

Seq2seq-based Acoustic Models

실제로 본격적으로 neural TTS에 대해서 논할 수 있는 시기는 acoustic model에 seq2seq모델이 사용된 후로 불 수 있음. 2014-5년 쯔음 기계번역 분야에서 어텐션(attention)을 사용한 seq2seq 모델이 대세로 떠올랐음. 그런데 문자나 소리나 비슷한 점이 많으므로 이를 스피치에도 적용할 수 있지 않을까 생각이 듬. 이 아이디어를 기반으로 구글에서 Tacotron[Wang17]이 개발됨(저자들이 타코를 좋아해서 지은 이름;;). seq2seq의 기본인 RNN에 CBHG 모듈등을 더하여 드디어 이전 SPSS에서 벗어나 캐릭터를 인풋으로 받아 바로 acoustic feature를 뽑아낼 수 있는 제대로된 neural TTS가 나타나기 시작함. 이러한 seq2seq 모델은 그 이후 오랫동안 TTS모델의 기본이 됨.

 

바이두에서도 DeepVoice 3[Ping18]에서는 이전에 사용했던 옛 모델과 이별하고 어텐션을 이용한 seq2seq 대열에 합류하게 됨. 하지만 지속해서 CNN을 기반으로 하고 있다는 DeepVoice의 전통은 여전히 살림.  DeepVoice는 3버전을 끝으로 이 이름을 더 이상 사용하지 않고 그 이후 ClariNet[Ping19]과 ParaNet[Peng20]으로 이어지게 됨. 특히 ParaNet은 seq2seq 모델의 속도 향상을 위하여 여러가지 테크닉을 도입함. 

 

구글의 Tacotron 또한 seq2seq라는 기본형은 유지된채 여러 방향으로 진화를 거듭함. 첫번째 버전은 약간 옛스러운 느낌이 있었지만 Tacotron 2[Shen18]부터는 멜스펙트로그램(mel-spectrogram)을 기본 중간 표현형으로 사용함. [Wang18]에서는 어떤 스피치 스타일을 정의하는 style token을 학습하여 이를 Tacotron에 더하여 스타일이 콘트롤 되는 TTS시스템을 만듬. 동시에 나온 구글의 또 다른 논문[Skerry-Ryan18]에서도 prosody에 대한 임베딩을 배우게 하는 부분을 Tacotron에 추가하여 결과 오디오의 prosody를 바꿀 수 있는 모델을 제안함(이러한 expressive TTS의 내용은 이 글 후반부에 더욱 자세히 소개됨). DCTTS[Tachibana18]에서는 Tacotron의 RNN부분을 Deep CNN으로 바꾸면 속도측면에서 큰 이득이 있음을 보임. 그 이후 이 모델은 크기가 크게 줄면서도 빠른 모델 Fast DCTTS로 개선됨[Kang21].

 

DurIAN[Yu20]에서는 Tacotron 2의 어텐션 부분을 alignment 모델로 바꾸어 좀 더 에러가 적은 결과를 만들어냄. Non-Attentive Tacotron[Shen20] 또한 비슷한 일을 하는데, 여기서도 Tacotron 2의 어텐션 부분을 duration predictor로 바꾸어서 보다 robust한 모델을 만들게 됨. FCL-TACO2[Wang21]에서는 semi-autoregressive(SAR) 방식을 제안하는데, 각각의 phoneme은 AR방식으로 만들고 전체는 NAR방식으로 만들어 퀄리티도 살리면서도 속도도 빠르게 만드는 방식. 거기에다가 distillation을 이용하여 모델의 크기도 줄임. Tacotron 2를 기본으로 하면서도 17-18배정도 더 빠른 모델을 제안. 

 

Transformer-based Acoustic Models

2017년 Transformer가 지구에 나타나고 NLP분야에서 어텐션 모델이 Transformer로 진화를 함에 따라 TTS분야에서도 Transformer를 사용하는 모델들이 나타나기 시작함. TransformerTTS[Li19a]를 시작으로 볼 수 있는데 이 모델은 Tacotron 2의 대부분을 그대로 따르면서 RNN부분을 Transformer로 바꾼 모델. 덕분에 병렬처리가 가능해지고 더 긴 dependency도 고려할 수 있게 됨. 결과적으로 비슷한 수준의 결과를 더 빨리 만들어낼 수 있게 됨. 

 

Transformer모델을 사용한 TTS의 대표격으로 FastSpeech[Ren19a] 시리즈를 꼽을 수 있는데, 여기서는 feed-foward Transformer를 사용하여 (이름 그대로) 엄청 빠른 속도로 mel-spectrogram을 만들어 낼 수 있게 됨. 참고로 mel-spectrogram은 사람의 청각의 특징을 좀 더 고려하여 FFT의 결과를 변형한 방식으로 나온지 매우 오래된 방식이긴 하지만 여전히 중요하게 사용되고 있음. 적은 차원(보통 80)으로 표현할 수 있다는 점도 장점 중에 하나. 

 

TTS에서는 입력 텍스트를 멜스펙트로그램의 프레임과 매치 시키는 것이 무척 중요함. 하나의 character 혹은 phoneme이 몇개의 프레임으로 변하는지를 정확하게 계산해야 하는데, 사실 어텐션 방식은 지나치게 flexible하여 NLP에서는 좋을지 모르지만 스피치에서는 오히려 단점이 되는 경우가 있음(단어가 반복된다든지 건너뛴다든지). 따라서 FastSpeech에서는 어텐션 방식을 빼고 길이를 정확히 예측하는 모듈(length regulator)을 활용함. 이후 FastSpeech 2[Ren21a]에서는 네트워크 구조를 더욱 단순화시키고 입력으로 피치, 길이, 에너지등 더욱 다양한 정보를 추가적으로 이용함. FastPitch[Łancucki21]에서는 FastSpeech에 세세한 피치정보를 넣어서 결과를 더욱 개선시킨 모델을 제안함. Lightspeech[Luo21]에서는 NAS(Neural Architecture Search)를 이용하여 원래도 빠른 FastSpeech의 구조를 최적화하여 6.5배의 속도 향상을 내는 구조를 제안함.

 

MultiSpeech[Chen20]에서도 Transformer에서 나타나는 단점을 해결하기 위하여 여러가지 테크닉들을 도입함. 이를 바탕으로 FastSpeech를 훈련하여(teacher-student) 더욱 개선된 FastSpeech 모델을 만들기도 함. TransformerTTS 저자들도 그 후 RobuTrans[Li20] 모델에서 길이를 기반으로 하는 hard 어텐션을 사용하여 더욱 개선된 Transformer TTS 모델을 제안함. AlignTTS[Zeng20] 또한 어텐션 대신 별도의 네트워크를 이용하여 alignment를 계산하는 방식을 도입함.  카카오에서 나온 JDI-T[Lim20]에서는 더욱 단순한 Transformer기반 아키텍쳐를 소개하며 여기에서도 개선된 방식의 어텐션 메카니즘을 이용함. NCSOFT에서는 text encoder와 audio encoder에서 Transformer를 여러 층으로 쌓아 계층적으로 이용하는 방법을 제안함[Bae21]. 어텐션의 범위를 제한하고 여러단계의 피치 임베딩을 사용한 것도 성능을 높이는데 도움이 되었음.

 

Flow-based Acoustic Models

2014년정도부터 이미지 분야에서 슬슬 쓰이기 시작한 새로운 생성방식 Flow 또한 acoustic model에 적용됨. Flowtron[Valle20a]은 Tacotron의 개선 모델로 볼 수 있는데, IAF(Inverse Autoregressive Flow)를 적용하여 멜스펙트로그램을 생성하는 모델임. Flow-TTS[Miao20]에서는 non-autoregressive flow를 이용하여 더욱 빠른 모델을 만듬. 후속 모델인 EfficientTTS[Miao21]에서는 alignment부분을 더욱 개선하는 한편 모델을 더욱 일반화함.

 

카카오에서 나온 Glow-TTS[Kim20] 또한 flow를 이용하여 멜스펙트로그램을 생성함. Glow-TTS에서는 텍스트와 멜프레임간의 매칭을 찾기 위하여 클래식한 다이나믹프로그래밍을 이용하였는데 TTS에서는 이러한 방식 또한 효율적이면서도 정확한 매칭을 만들어낼 수 있음을 보임. 이후에 이 방식(Monotonic Alignment Search)은 다른 연구에서도 활용됨. 

 

VAE-based Acoustic Models

2013년에 탄생한 또다른 생성 모델 프레임워크인 variational autoencoder(VAE) 또한 TTS에서 활용됨. 구글에서 발표한 GMVAE-Tacotron[Hsu19]은 이름에서도 알 수 있듯이 VAE를 활용하여 스피치에 있는 여러 latent attribute들을 모델링하여 이를 콘트롤하는 방식을 제안함. 동시에 나온 VAE-TTS[Zhang19a] 또한 Tacotron 2 모델에 VAE로 모델링한 style부분을 추가하여 비슷한 일을 할 수 있음. BVAE-TTS[Lee21a]에서는 양방향-VAE을 이용하여 적은 파라미터로도 빠르게 멜을 생성하는 모델을 소개함. Tacotron 시리즈의 연장선에 있는 Parallel Tacotron[Elias21a]에서도 더욱 빠른 훈련 및 생성 속도를 위하여 VAE를 도입함. 

 

GAN-based Acoustic Models

2014년 좋은 친구에 의해서 제안된 Generative Adversarial Nets(GAN) 또한 TTS에서 활용되지 않을 이유는 없음. [Guo19]에서는 Generator로 Tacotron 2을 사용하고 더욱 좋은 멜을 생성하기 위한 방법론으로 GAN을 활용함. [Ma19]에서는 Tacotron Generator가 스피치의 스타일까지 함께 배우게 하기 위하여 Adversarial 훈련 방법을 이용함.  Multi-SpectroGAN[Lee21b] 또한 스타일에 대한 여러 latent representation을 adversarial 방식으로 배우는데 여기에서는 Generator로 FastSpeech2를 이용함. GANSpeech[Yang21b] 또한 FastSpeech1/2를 Generator를 두고 이를 GAN방식으로 훈련하는데, feature matching loss의 스케일을 adaptive하게 조정을 하는 것이 성능향상에 도움이 되었음.

 

Diffusion-based Acoustic Models

가장 최근에 각광받고 있는 Diffusion 모델을 활용한 TTS들 또한 속속히 제안되고 있음. Diff-TTS[Jeong21]는 멜을 생성하는 부분을 Diffusion 모델을 이용함으로써 결과의 퀄리티를 더욱 높임. Grad-TTS[Popov21] 또한 디코더를 Diffusion 모델로 바꾸어 비슷한 일을 하는데, 여기에서는 디코더를 제외한 나머지 구조를 Glow-TTS를 이용하였음. PriorGrad[Lee22a]에서는 데이터의 통계량을 활용하여 prior분포를 만들어 더욱 효율적인 모델링이 가능하게 함. 여기서는 각 phoneme이 지닌 통계량을 이용하여 acoustic model에 적용한 예를 소개함. 텐센트의 DiffGAN-TTS[Liu22a] 역시 Diffusion decoder를 사용하는데 여기에서는 adversarial 훈련 방법을 사용함. 이를 통해 인퍼런스시 스텝의 수를 크게 줄여 생성 속도를 감소시킬 수 있음. 

 

그 외의 Acoustic Models

사실 위에서 소개한 기술들은 딱 하나씩 사용해야 하는 것은 아니며 서로 조합해서 사용하는 것도 충분히 가능함. FastSpeech의 저자들은 자체적인 분석결과로 VAE는 작은 사이즈로도 prosody같은 긴 길이의 정보를 잘 잡는 반면 품질이 좀 떨어지고, Flow는 디테일을 잘 살리는 반면 품질이 좋아지려면 모델이 커야한다는 사실을 발견하고, 각각의 장점만 뽑아 PortaSpeech[Ren21b]라는 또다른 모델도 제안함. 즉 여기에는 Transformer+VAE+Flow의 각 요소가 다 들어있음.

 

구Facebook 현meta에서 제안한 VoiceLoop[Taigman18]는 phonological loop이라고 불리는 인간의 working-memory 모델과 유사한 모델을 이용하여 스피치 정보를 저장하고 처리하는 모델을 제안함. 멀티스피커를 고려하는 초창기 모델이고 구조자체도 흥미로움. 그 후 페이스북에서 나온 다른 연구들[Akuzawa18][Nachmani18]을 비롯하여 [deKorte20]등에서 백본으로 사용됨.

 

DeviceTTS[Huang21]는 Deep Feedforward Sequential Memory Network(DFSMN)을 기본 단위로 사용하는 모델. 이 네트워크는 memory block을 가지고 있는 feedforward 네트워크의 형태로 recurrent 방식을 사용하지 않고도 long-term dependency를 유지할 수 있는 작지만 효율적인 네트워크. 이를 통하여 일반 모바일장비에서도 충분히 사용가능한 TTS모델을 제안함. 

 

IV. Vocoder

보코더(Vocoder)는 acoustic model이 생성한 acoustic feature를 이용하여 이를 waveform으로 바꾸어주는 부분. SPSS 시절에도 당연히 보코더가 필요했고, 이 시절에 사용되었던 할아버지 보코더로는 STRAIGHT[Kawahara06]와 WORLD[Morise16]등을 꼽을 수 있음.

 

Autoregressive Vocoders

Neural Vocoder의 시작은 WaveNet[Oord16]로부터 시작되었다는 것이 정설(?). 긴 오디오 샘플을 만들기 위하여 dilated convolution 레이어를 도입한 것이 중요하게 작용했고, 기존에 만들어진 샘플을 이용하여 다음 오디오 샘플을 (하나씩 하나씩) 생성하는 autoregressive 방식을 이용하여 높은 수준의 오디오를 생성할 수가 있었음. 사실 WaveNet자체는 입력으로 linguistic feature를 받아 오디오를 생성하는 Acoustic Model+Vocoder로도 사용될 수 있음. 하지만 그 이후에는 더욱 정교한 acoustic model을 통해 멜스펙트로그램을 만들고, WaveNet이 이를 바탕으로 오디오를 생성하는 것이 일반적인 형태로 자리잡음.

 

Tacotron[Wang17]에서는 결과로 linear-spectrogram을 만들고, 이를 Griffin-Lim 알고리즘[Griffin84]을 이용하여 waveform으로 변경했음. 무려 40년전의 알고리즘을 사용했는지라 전체적인 네트워크의 구조가 훌륭함에도 불구하고 결과 오디오가 그리 만족스럽지는 못했음. DeepVoice[Arık17a]에서는 시작부터 WaveNet 보코더를 사용했고, 특히 DeepVoice2[Arık17b]논문에서는 자신들의 모델 말고도 남의 회사 모델인 Tacotron에 WaveNet 보코더를 달아 성능을 더 높인 결과도 보이고 있음(이렇게 하니 싱글 스피커에서 DeepVoice2보다 더 좋은 성능을 냈음. 실험해놓고 씁쓸했을듯..). Tacotron은 버전 2[Shen18]부터 WaveNet을 기본 보코더로 사용함.

 

SampleRNN[Mehri17]은 RNN방식으로 샘플을 하나씩 만드는 또 다른 방식의 autoregressive 모델. 이와 같은 autoregressive 모델들은 이전 샘플을 통해 다음 샘플을 하나씩 만드는 방식이기 때문에 오디오 생성 속도가 매우 느림. 따라서 이후에 매우 많은 연구들은 더 빠른 생성속도를 위한 모델들을 제안하게 됨.

 

FFTNet[Jin18]은 WaveNet의 Dilated convolution의 모양이 FFT와도 유사하다는 점에 착안하여 생성 속도를 더욱 빠르게 할 수 있는 기술을 제안함. WaveRNN[Kalchbrenner18]에서는 WaveNet의 속도를 높이기 위하여 다양한 기술들(GPU커널 코딩, pruning, subscaling등)을 이용함. WaveRNN은 그 이후 Universal Neural Vocoder및 여러 형태로 발전하였음. [Lorenzo-Trueba19]에서는 WaveRNN에다가 74명의 스피커, 17개의 언어의 데이터를 이용하여 훈련하여 RNN_MS(multi-speaker) 모델을 만들어, 데이터에 없던 스피커와 환경에서도 좋은 퀄리티를 내는 보코더임을 선보였음. [Paul20a]에서는 SC(Speaker Conditional)_WaveRNN 모델, 즉 스피커 임베딩을 추가적으로 사용하여 학습하는 모델을 제안함. 이 모델 또한 데이터에 없는 스피커와 환경에서도 잘 작동함을 보임.

Apple의 TTS[Achanta21]에서도 보코더로 WaveRNN을 사용하고 있으며 모바일 장비에서도 사용할 수 있게 서버와 모바일에서 여러 최적화 코딩 및 파라미터 세팅을 하였음.

 

오디오 시그널을 여러 서브밴드(subband), 즉 더 짧은 크기의 다운샘플된 버전으로 나누어 처리하는 방식은 병렬로 빠르게 계산할 수도 있고 각 서브밴드마다 다른 처리를 할 수 있다는 장점이 있어서 여러 모델에 적용되어 왔음. 예를 들어 WaveNet의 경우 [Okamoto18a]에서는 filterbank를 이용하여 시그널을 서브밴드로 나누어 처리하는 subband WaveNet을 제안하고 [Rabiee18]에서는 Wavelet을 이용한 방식을 제안함. [Okamoto18b]는 FFTNet의 subband 버전을 제안함. DurIAN[Yu19]은 주로 acoustic model을 다루는 논문이지만 WaveRNN의 subband버전도 함께 제안하고 있음. 

 

이제 이후에 소개되는 많은 보코더는 autoregressive 방식의 느린 생성 속도를 개선하기 위하여 non-autoregressive방식을 이용하게 됨. 즉 앞의 샘플을 보지 않고도 그 뒤의 샘플을 생성할 수 있는 방식(보통 parallel이라고 표현함). 매우 다양한 방식의 non-autoregressive들이 제안되고 있지만, autoregressive 방식이 아직도 죽지 않았다는 것을 보여주는 최근 논문으로 Chunked Autoregressive GAN(CARGAN)[Morrison22]을 꼽을 수 있음. 많은 non-autoregressive 방식의 보코더가 피치에 대한 에러가 있고, 이는 autoregressive방식을 사용되면 해결될 수 있는 문제라는 사실을 보임. 물론 속도가 문제이지만 이를 chunked단위로 끊어서 계산을 해도 괜찮다고 제안함으로써 속도와 메모리를 크게 줄일 수 있는 방법을 소개함. 

 

Flow-based Vocoders

normalizing flow 기반의 기술은 크게 두 가지로 나눌 수 있음. 먼저 Autoregressive transforms이 있는데, 대표적인 IAF(inverse autoregressive flow)의 경우 훈련시간이 오래 걸리는대신 생성속도는 매우 빠름. 따라서 빠르게 오디오를 생성하는데 활용할 수 있음. 다만 느린 훈련속도가 문제가 되는데, Parallel WaveNet[Oord18]에서는 먼저 autoressive WaveNet 모델을 만들어 놓고, 이와 비슷한 non-autoregressive IAF모델을 훈련시키는 방법을 이용함.  Teacher-Student 모델, 혹은 distillation이라고 불리는 방식임. 그 뒤 ClariNet[Ping19]에서는 비슷한 방법론을 사용하면서도 더 단순하면서도 안정적인 훈련 방법을 제안함. IAF모델이 성공적으로 훈련되고 나면 이제 빠른 오디오 생성이 가능함. 하지만 훈련방법이 복잡하고 계산량이 많다는 단점이 있음.

 

또 하나의 flow기술은 Bipartite transforms라고 불림. 대표적으로 affine coupling layer라는 레이어를 이용하여 훈련과 생성 모두 빠르게 하는 방식. 거의 비슷한 시기에 이 방식을 사용하여 두 가지의 보코더가 제안되었는데 WaveGlow[Prenger19]와 FloWaveNet[Kim19]임. 이 둘은 채널을 섞는 방식을 비롯하여 약간의 구조적인 차이가 있을 뿐 거의 비슷한 아이디어로 부터 나온 논문들. Bipartite transform은 단순하다는 장점이 있지만 그것이 또 단점으로 작용되어, IAF과 대등한 수준의 모델을 만드려면 레이어를 여러개 쌓아야 하므로 파라미터수가 상대적으로 더 클 수 밖에 없음.

 

그 후 WaveFlow[Ping20]는 여러 오디오 생성 방식의 통합적인 관점을 제공하고 있음. WaveGlow, FloWaveNet등 flow방식 뿐 아니라 WaveNet의 생성 방식도 하나의 일반화 모델로 설명하면서 이들보다 더 빠르게 계산되는 모델을 제안함. 또한 SqueezeWave[Zhai20]에서는 WaveGlow 모델에서 비효율성을 제거하고 depthwise separable convolution을 사용하여 수십배 더 빠른 모델(성능저하는 약간 있음)을 제안하였음. WG-WaveNet[Hsu20] 또한 WaveGlow에서 weight-sharing으로 모델 사이즈를 크게 줄이고 작은 WaveNet 필터를 넣어 오디오의 퀄리티를 살리는 방식으로 모델을 만들어 CPU에서 44.1kHz의 오디오를 리얼타임보다 더 빠르게 만드는 방식을 제안함.

 

GAN-based Vocoders

이미지 분야에서 크게 활용되고 있는 GAN(Generative adversarial networks)은 오디오 생성 분야에는 제법 오랜시간(4-5년)이 흐른 후 성공적으로 적용이 되었음. 첫 주된 연구 결과로 WaveGAN[Donahue19]을 꼽을 수 있음. 이미지 분야에서 개발된 구조를 오디오 분야에도 그대로 이용을 했는지라 어느정도의 퀄리티의 오디오를 생성하긴 했지만 아직까지는 부족함이 보였음.

 

GAN-TTS[Binkowski20]에서부터 오디오에 더 적합한 모델을 만들기 위해, 즉 웨이브폼의 특성을 어떻게 잘 캡쳐하는 Discriminator를 만들까에 대해서 고민하기 시작함. GAN-TTS에서는 랜덤한 윈도우를 여러개 사용하여(Random window discriminators) 더욱 다양한 특성을 고려하도록 했고, MelGAN[Kumar19]에서는 오디오를 여러 스케일로 바라보는 방식(Multi-scale discriminator)을 사용함. 카카오에서 나온 HiFi-GAN[Kong20]에서는 좀 더 오디오스러운 특성, 즉 period를 고려하는 방식(Multi-period discriminator)을 제안함. VocGAN[Yang20a]의 경우도 여러 resolution을 갖는 discriminator를 함께 사용함. [Gritsenko20]에서는 생성된 분포와 실제 분포간의 차이를 generalized energy distance(GED) 형태로 정의하여 이를 최소화하는 방향으로 학습함. 이렇게 다양한 방식의 정교한 discriminator들이 결과 오디오의 성능을 크게 높였음. [You21]에서는 이를 더욱 분석하여 multi-resolution discriminator의 중요성에 대해서 언급하고 있음. Fre-GAN [Kim21b]에서는 generator와 discriminator모두 multi-resolution방식을 이용하여 연결됨. Discrete Waveform Transform(DWT)를 사용한 것도 도움이 되었음. 

 

Generator의 경우에는 많은 모델에서 MelGAN에서 제안한 dilated + transposed convolution 조합을 응용하여 사용함. 약간의 차이가 있는 경우를 언급하면 Parallel WaveGAN[Yamamoto20]에서는 가우시안 노이즈도 입력으로 받고 VocGAN에서는 여러 스케일의 웨이브폼을 생성한다는 점. HiFi-GAN에서는 여러 receptive field를 갖는 Generator를 사용한다는 점 등이 있음. [Yamamoto19]에서는 IAF Generator를 GAN방식으로 훈련하는 것을 제안하기도 하였음.

 

앞서 언습한 Parallel WaveGAN[Yamamoto20]은 네이버/라인에서 제안한 모델로 non-autogressive 형태의 WaveNet Generator를 제안하여 무척 빠른 속도로 오디오를 생성할 수 있는 모델. [Wu20]는 여기에 pitch-dependent dilated convolution을 추가하여 피치(음높이)에 좀 더 강인한 버전을 제안함. 그 뒤 [Song21]은 청각에 예민한 에러를 줄이기 위하여 perceptual masking filter를 적용하여 더욱 개선된 Parallel WaveGAN을 제안함. 또한 [Wang21]에서는 Least Square GAN을 개선시킨 Pointwise Relativistic LSGAN을 오디오에 적용하여 보다 local artifact가 적은 Parallel WaveGAN(및 MelGAN)을 만드는 방법을 제안함. LVCNet[Zeng21]에서는 location-variable convolution라는 이름의, 조건에 따라서 달라지는 형태의 convolution 레이어를 이용한 Generator를 Parallel WaveGAN에 넣고 훈련시켜 퀄리티의 차이는 거의 없으면서도 더욱 빠른(4x) 생성 모델을 만듬. 

 

MelGAN 또한 그 이후에 여러 형태로 개선이 되었음.  Multi-Band MelGAN[Yang21a]에서는 오리지널 MelGAN의 receptive field도 늘리고, multi-resolution STFT loss도 더하고(Parallel WaveGAN에서 제안), multi-band로 나누어 계산하여(DurIAN에서 제안) 더욱 빠르고 안정적인 모델을 만들었음. 멀티 스피커 버전의 Universal MelGAN[Jang20]도 제안되었는데, 여기에서도 multi-resolution 형태의 discriminator를 사용하여 디테일을 더 살리는 오디오를 생성할 수 있게 함. 이 아이디어는 후속 연구 UnivNet[Jang21]에서도 이어져서 multi-period discriminator도 함께 사용하는 등 더욱 개선됨. 이들 연구에서는 좀 더 넓은 밴드(80->100)의 멜을 사용함으로써 오디오의 퀄리티를 높이기도 함.

 

최근에 서울대/NVIDIA에서는 BigVGAN이라는 새로운 보코더를 소개함[Lee22b]. 다양한 녹음 환경 및 Unseen language등까지 고려한 Universal Vocoder로 기술적인 개선으로는 HiFi-GAN generator에 snake 함수를 이용하여 periodic inductive bias를 제공하고 이로 인한 부작용을 줄이기 위하여 low-pass filter를 더하였음. 또한 모델의 크기도 크게 늘려(~112M) 훈련하는데도 성공함.

 

Diffusion-based Vocoders

가장 최근 방식의 생성 모델이라고 할 수 있는 Diffusion 모델은 보코더에 더욱 먼저 적용되었었음. 비슷한 아이디어를 가진 DiffWave[Kong21]와 WaveGrad[Chen21a]가 ICLR21에 동시에 소개되었음. 오디오를 생성하는 부분을 Diffusion Model을 사용했다는 사실은 동일하지만, DiffWave는 WaveNet과 유사한 형태로, WaveGrad는 GAN-TTS를 기반으로 하고 있음. iteration을 어떻게 처리하는가에도 차이가 있어서 두 논문을 비교하면서 읽으면 소소한 재미가 있음. 앞서 acoustic model 부분에서 소개한 PriorGrad[Lee22a]에서는 예제로 보코더를 만드는 방법 또한 소개하고 있음. 여기에서는 멜스펙트로그램의 에너지를 이용하여 prior를 계산하게 됨. 

 

Diffusion방식은 복잡한 데이터 분포를 배울 수 있어 높은 품질의 결과를 낼 수 있다는 장점이 있지만 가장 큰 단점으로는 상대적으로 오래걸리는 생성시간이 꼽힘. 또한 이 방식 자체가 노이즈를 제거하는 방식으로 이루어지다보니 너무 오래 진행하다보면 원래 오디오에 존재하는 많은 노이즈(unvoiced 사운드등) 역시 사라진다는 단점이 있음. FastDiff[Huang22]에서는 LVCNet[Zeng21]의 아이디어를 diffusion model에 적용하여 time-aware location-variation convolution을 제안함. 이를 통하여 더욱 robust하게 diffusion을 적용할 수 있고, 또한  noise schedule predictor를 이용하여 생성 시간을 더욱 줄이게 됨. 

 

텐센트에서 나온 BDDM[Lam22] 또한 생성시간을 크게 줄이는 방법을 제안함. 즉 diffusion process의 forward process와 reverse process에 다른 네트워크를 사용하는 것으로(forward: schedule network, reverse: score network) 이를 위한 이론적인 새로운 objective도 제안함. 여기서는 최소 3번의 step만으로도 오디오를 생성할 수 있음을 보임. 이 정도 속도면 diffusion 방식도 충분히 실용적으로도 사용될 수 있음. 대부분의 이전 연구들이 DDPM형태의 모델링을 이용하는 반면 Diffusion 모델은 SDE(Stochastic Differential Equation)형태로 표현될 수도 있음. ItoWave[Wu22b]에서는 SDE형태의 모델링을 이용하여 오디오를 생성하는 예를 보여줌.

 

Source-filter-based Vocoders

이 글 초반부에 TTS의 역사를 다룰 때 Formant Synthesis에 대해서 간단히 살펴보았음. 인간의 목소리란 일단 기본 source(sine소리등)가 구강구조를 거치며 filtering되어 우리가 듣는 소리로 변한다고 생각하고 모델링하는 방법임. 이 방식에서 가장 중요한 부분은 filter를 어떻게 만들가임. DL시대에 이르러 이 filter를 뉴럴네트워크로 모델링하면 성능이 더 좋아지지 않을까 생각이 듬. Neural source-filter 방식[Wang19a]에서는 f0(피치)정보를 이용하여 기본 sine소리를 만들어내고 이를 dilated convolution을 이용한 필터를 학습시켜서 좋은 품질의 소리를 만들어냄. Autoregressive방식이 아니기때문에 속도도 매우 빠른 방식. 그 후 [Wang19b]에서는 이를 확장시켜서 harmonic + noise 모델로 재구성하여 성능을 향상시킴. DDSP[Engel20]에서는 뉴럴네트워크와 여러 DSP 컴퍼넌트를 이용하여 다양한 소리를 만드는 방식을 제안하는데 여기에서 harmonic은 additive 합성방식을, noise는 linear time-varying filter를 사용함. 

 

또다른 방식은 스피치의 피치와 관련된 부분(formant)과 그 외의 부분(residual, excitation등으로 불림)을 나누어 처리하는 방법임. 이 또한 오랜 역사를 지닌 방식. formant는 주로 LP(linear prediction)을 이용하고 excitation은 다양한 모델을 이용해 왔음. 뉴럴네트워크 시대에 이르러 제안된 GlotNet[Juvela18]은 (glottal) excitation을 WaveNet으로 모델링함. 그 뒤 GELP[Juvela19]에서는 GAN훈련 방법을 이용하여 parallel 형식으로 확장함.

 

네이버/연세대에서 나온 ExcitNet[Song19]도 이와 유사한 아이디어를 가진 모델로 볼 수 있으며, 그 후 확장모델인 LP-WaveNet[Hwang20a]에서는 source와 filter를 함께 훈련하고 더 정교한 모델을 사용하게 됨. [Song20]에서는 여기에 modeling-by-generation(MbG)컨셉을 도입해 acoustic model에서 생성된 정보를 vocoder에서 유용하게 사용하여 성능을 높임. Neural Homomorphic Vocoder[Liu20b]에서는 harmonic은 linear time-varying(LTV) impulse trains, noise는 LTV 노이즈를 이용하는 방식을 제안. [Yoneyama21]에서는 Parallel WaveGAN을 보코더를 사용하고 앞서 언급한 여러 source-filter 모델들을 통합하는 모델을 제안. Parallel WaveGAN 자체도 원저자 그룹(네이버등)에 의하여 지속적으로 확장이 되었는데, 먼저 [Hwang21b]에서는 Generator를 Harmonic+Noise모델로 확장되었으며 여기에 subband 버전도 더해짐. 또한 [Yamamoto21]에서는 Discriminator의 성능을 높이기 위한 몇가지 기술이 제안되었는데 그 중에는 voiced(harmonic)와 unvoiced(noise)를 모델링하는 discriminator를 나누어 고려하기도 함. 

 

이러한 source-filter 방법론에서 그 후에 가장 널리 사용된 모델로 LPCNet[Valin19]을 꼽을 수 있음. WaveRNN에다가 Linear Prediction를 더한 모델로  LPCNet 또한 그 이후에 여러 방향으로 개선되었음. Bunched LPCNet[Vipperla20]에서는 오리지널 WaveRNN에서 소개했던 기술들을 활용하여 LPCNet을 더욱 효율적으로 만듬. Gaussian LPCNet[Popov20a] 또한 동시에 한개 이상의 샘플을 예측하게 하여 효율성을 높임. [Kanagawa20]은 WaveRNN 내부 컴퍼넌트들의 크기를 tensor decomposition을 이용하여 더욱 줄임으로써 또다른 방향으로 효율성을 높임. iLPCNet[Hwang20b]은 연속적인 형태의 mixture density network을 활용하여 기존 LPCNet보다 더 높은 성능을 보이는 모델을 제안함. [Popov20b]에서는 LPCNet에서 말소리 중에서 끊어도 되는 부분(예를 들어 잠시 멈추는 부분이나 unvoiced 사운드)을 찾아 나누어 이를 병렬로 처리하고 cross-fading으로 합쳐서 생성속도를 빠르게 하는 모델을 제안함. LPCNet또한 서브밴드 버전으로도 확장되어 FeatherWave[Tian20]에서 subband LPCNet을 먼저 소개하고 [Cui20]에서는 subband끼리의 correlation까지 함께 고려하는 좀더 개선된 버전의 subband LPCNet을 제안함. 최근 LPCNet저자들(모질라/구글에서 아마존으로 옮긴 듯)에 의하여 개선된 버전 또한 소개되었는데[Valin22] 여기에서는 트리구조를 이용하여 샘플링시 계산양을 줄이고 weight를 8비트로 quantization하여 사용하는 등의 방법을 제안함. 이는 모두 캐쉬를 효율적으로 사용하고 최신 GPU의 개선된 병렬연산능력등을 활용하기 위한 방법들. 

 

그 외...

앞서 말한대로 보코더의 발전은 품질 좋지만 느린 AR(Autoregressive)방식에서 빠른 NAR(Non-autoregressive) 방식으로 이동하는 방향으로 진행됨. NAR도 여러 발전된 생성 기법들 덕분에 점점 AR수준에 다다르고 있음. 이 둘간의 재미있는 논문도 있는데 예를 들어 TTS-BY-TTS[Hwang21a]에서는 AR방식으로 데이터를 많이 만들어 NAR 모델의 훈련에 사용했더니 좋은 효과가 있었다는 결과를 보임. 하지만 모든 데이터를 다 사용하는 것은 오히려 안좋을 수도 있음. 따라서 TTS-BY-TTS2[Song22]에서는 원래 오디오와 더욱 유사한 합성 오디오만을 RankSVM을 이용하여 구하여 이 데이터만 사용하여 훈련하는 방식을 제안함. 

 

Microsoft에서 사용하는 TTS시스템 DelightfulTTS[Liu21]는 confomer를 사용하는등 자체적으로 몇몇 구조적인 수정이 있고 특히 최종 오디오를 48kHz로 생성한다는 특징이 있음(대부분의 TTS시스템은 보통 16kHz 오디오를 생성). 이를 위해서 멜스펙트로그램은 16kHz로 생성하지만 자체적으로 만든 HiFiNet을 이용하여 48kHz로 최종 오디오를 생성.

 

V. Fully End-to-End TTS

다음으로 Acoustic Model과 Vocoder를 함께 학습하여, 인풋으로 텍스트나 phoneme이 들어오면 웨이브폼 오디오를 바로 만들어주는 모델들을 소개함. 사실 이렇게 한번에 다 하면 좋음. 훈련 단계를 나눌 필요도 없고 단계가 줄어드니 에러도 줄어들게 됨. 멜스펙트럼 같은 acoustic feature를 구지 이용할 필요도 없음. 사실 멜이 좋긴 하지만 사람이 임의로 정한 것이고(sub-optimal), phase정보도 사라지게 됨. 하지만 처음부터 이런 모델들이 쉽사리 개발되지 않은 이유는 이렇게 한번에 다하면 어려웠기 때문.

 

예를 들어 인풋으로 들어오는 텍스트는 5초 기준으로 약 20개정도, phoneme으로는 100개정도의 길이임. 하지만 웨이브폼은 80,000 샘플임(16kHz의 샘플링율인경우). 따라서 일단 메모리가 문제가 되고 바로 정확히 매칭(텍스트 -> 오디오샘플)시키는 것보다는 중간 단계의 해상도를 갖는 표현방법(멜같은)을 이용하여 두 단계로 나누어서 하는 것이 상대적으로 간단하기 때문. 하지만 점점 기술도 발전하였으니 이렇게 Fully End-to-End 방식(끝에서 끝이라는 뜻, 한번에 다한다는 의미)으로 훈련한 모델들을 몇몇 찾아볼 수 있음. 참고로 Acoustic Model을 다루는 많은 논문에서 자신들은 End-to-End 방식의 모델이라는 말을 쓰곤 하는데, 이는 Text Analysis부분이 자신의 모델들 안에 함께 흡수되었다는 의미 혹은 자신 모델에 보코더를 달아서 오디오를 생상할 수 있다는 의미로 사용되는 경우가 많음. 따라서 텍스트에서 오디오까지 한 모델로 생성하는 진정한 End-to-End 방식을 따로 구분하기 위하여 이 글에서는 "Fully" End-to-End 방식이라는 말을 사용함(공식적인 것은 아님).  

 

아마도 이 분야의 시초로는 Char2Wav[Sotelo17]를 꼽을 수 있음. 몬트리올 대학에 유명하신 그분 벤지오(Yoshua Bengio) 교수님팀에서 나온 논문으로 seq2seq을 사용한 Acoustic Model에다가 자기 팀에서 만들었던 SampleRNN[Mehri17] 보코더를 더하여 한번에 훈련하는 방식으로 만들었음. ClariNet[Mehri17]은 사실 WaveNet->IAF방식의 보코더를 더욱 효율적으로 만드는 내용이 주된 내용이지만 자신들의 팀(바이두)에서 만들었던 Acoustic Model(DeepVoice 3)가 있으니 여기에 새로만든 보코더를 추가해 한번에 학습하여 End-to-End 모델을 만드는 방법도 함께 소개함.

 

FastSpeech 2[Ren21a] 또한 성능좋은 Acoustic Model에 대한 내용인데, 이 논문에는 FastSpeech 2s라고 (네이밍 센스보소) Fully End-to-End 모델에 대해서도 소개하고 있음. FastSpeech 2모델에다가 WaveNet 보코더를 달았는데 훈련의 어려움을 극복하기 위하여 미리 만들어두었던 mel encoder을 활용하는 방식을 취함. EATS[Donahue21]라는 (왠지 배고파지는) 이름의 모델은 자기들의 팀(구글)에서 만들었던 GAN-TTS[Binkowski20]를 보코더로 두고 여기에 새롭게 Acoustic Model을 만들어 함께 훈련함. 하지만 한번에 훈련이 어려워서 중간에 중간해상도를 지니는 representation을 만들어서 이를 이용함. Wave-Tacotron[Weiss21]는 이름만 들어도 알 수 있듯이 Tacotron에다가 보코더를 달아 한번에 훈련시킨 모델. 여기에서는 flow방식의 보코더를 이용했는데 저자중에 Kingma(flow방식을 비롯하여 생성모델계의 거물)가 있음ㅎㄷㄷ 결과적으로 성능도 크게 안떨어지면서도 더욱 빠른 모델을 만들 수 있었음. 

 

앞서 Acoustic Model부분에서 소개한 EfficientTTS[Miao21]에는 디코더를 MelGAN으로 바꾸어 End-to-End 방식으로 훈련하는 모델(EFTS-Wav) 또한 소개하고 있음. 이 모델 역시 성능도 좋으면서 오디오 생성 속도를 크게 높일 수 있음을 보여줌. 카카오팀에서는 Glow-TTS[Kim20]라는 Acoustic Model과 HiFi-GAN[Kong20]이라는 보코더를 개발한 바 있음. 그러면 둘이 합쳐서 End-to-End 모델 또한 만들 수 있을 것임. 그렇게 탄생한 모델이 VITS[Kim21a]로 두 부분을 연결하기 위하여 VAE를 이용하였고 전체 훈련은 Adversarial 방식을 이용하였음. 역시나 좋은 스피드와 퀄리티를 갖는 모델이 제안됨.

 

연세대/네이버에서도 2021년 효율적인 Fully End-to-End TTS인 LiteTTS[Nguyen21]을 선보임. 가벼운 버전의 Feed Forward Transformer와 HiFi-GAN 구조를 활용하는데, 특히 domain transfer encoder를 두어 텍스트의 정보도 prosody임베딩과 연관시켜 학습시키는 부분을 별도로 두었음. 텐센트와 Zhejiang대학에서는 FastDiff[Huang22]라는 보코더를 제안하면서 이와 FastSpeech 2(역시 Zhejiang대학 작품)을 결합한 Fully End-to-End 모델인 FastDiff-TTS도 함께 소개함. 카카오에서도 FastSpeech2와 HiFi-GAN을 함께 훈련하는 방식의 JETS을 선보임[Lim22]. 마이크로소프트 역시 기존의 DelightfulTTS를 버전 2로 업그레이드하면서 Fully End-to-End 방식을 도입함[Liu22b]. 여기에서는 중간 표현법으로 VQ audio encoder를 이용함. 

 

 

 

지금까지 TTS를 이루는 중요한 두개의 모듈 Acoustic Model과 Vocoder과 Fully End-to-End 방식의 모델에 대해서 살펴보았음. 하지만 TTS에는 더욱 실용적으로 사용되기 위하여, 그리고 더욱 다양한 곳에 응용되기 위하여 고려해야 할 요소들이 많음. 아래에서는 그러한 주제들을 추가적으로 살펴보고자 함.

 

VI. Low-Resource TTS

TTS의 성능을 높이려면 많은 데이터가 필요함. 사실 머닝러닝 자체가 (좋은) 데이터의 양이 많으면 많을 수록 좋은 모델임. 그런데 데이터를 구하는 것은 항상 어려운 문제임. 또한 세상에는 수많은 언어들이 있고 그 언어를 구사하는 사람들의 숫자가 다 다르기 때문에 데이터를 많이 구할 수 없는 언어들이 훨씬 많음. 따라서 (좋은) 데이터가 적은 언어에도 적용할 수 있는 TTS를 만드는 것은 커다란 현실적인 문제임. 이를 비롯하여 데이터를 효율적으로 이용하고자 노력하는 여러 연구들은 다음과 같음.

 

Semi-Supervised, Self-Supervised, ...

TTS에서 좋은 데이터란 '텍스트'와 '그 텍스트에 대한 스피치' 두 가지가 쌍으로 있는 데이터를 의미함. 그런데 사실 그냥 일반 텍스트나 스피치 데이터는 훨씬 많음. 따라서 이러한 일반 데이터를 이용하여 성능을 올릴 수 있으면 좋을 듯 싶음. 구글에서는 Tacotron에다가 semi-supervised 기법을 테스트해봄[Chung19]. encoder와 decoder를 랜덤 웨이트에서 시작하는 것이 아니라, 일반 text데이터와 acoustic 데이터를 이용하여 먼저 대략적인 시퀀스를 만드는 방법을 먼저 배우게 하고 (27분가량의) 실제 '쌍' 데이터를 넣어 fine-tuning해도 모델이 충분히 훈련이 된다는 것을 보임. [Ming19]에서는 Neural Machine Translation(NMT) 분야에서 개발된 word embedding(과 문법정보)를 추가적으로 이용하여 성능을 높이는 방법을 제안함. 일종의 pre-training을 이용하여 feature를 늘리는 방법이라고 할 수 있음.

 

Guided-TTS[Kim22a]에서는 새로운 방법을 제안하는데, 일단 텍스트 쌍이 없는 데이터로 오디오-멜간의 (unconditioned) DDPM(Diffusion)모델을 만듬. 그리고 별도의 phoneme classifier를 훈련시켜 입력된 phoneme에 따라 오디오를 모자이크 만들듯이 만들어내는 방법. 전체적인 prosody가 부족하다는 느낌은 있지만 텍스트 쌍이 없는 (많은) 데이터를 이용할 수 있다는 장점이 있음.

 

풍부한 textual 정보를 담고있는 BERT 모델을 TTS에서도 활용해보고자 하는 시도도 찾아볼 수 있음. [Fang19]에서는 BERT를 사용했더니 결과적으로 성능을 크게 늘리지는 못했지만 훈련속도와 디코더 성능개선이 있었다고 보고함. [Hayashi19]에서는 실제로 BERT를 이용한 text embedding을 추가적인 인풋으로 넣었더니 성능이 올라갔음. BERT는 영어 뿐만 아니라 중국어 TTS에도 유용하게 사용될 수 있다는 결과도 찾아볼 수 있음[Yang19][Xiao20]. 영어와 달리 중국어는 단어를 끊는(word segmentation; 위에 Text Analysis부분 참고) 부분이 중요한데, BERT가 이러한 역할을 어느정도 해주는 것 같기 때문. [Kenter20]에서는 오히려 작은 BERT가 TTS에서 더 적합하고, BERT모델 자체를 fine-tuning하는 것이 중요하다고 제안함. 고정된 BERT 임베딩만 사용한 경우 성능향상을 발견하지 못했음. [Xu21]에서는 BERT embedding을 그대로 사용하는 것이 아니라 이를 이용하여 다른 형태의 벡터(cross-utterance context vector)를 만들어서 사용하여 영어와 중국어 모두 성능향상을 보였음. [Jia21]에서는 text와 phoneme 모두 입력으로 받을 수 있는 BERT모델(PnG BERT)를 소개하였는데 이를 TTS에서 인코더로만 대체하여 사용하더라도 성능을 더 높일 수 있음을 보임.

 

Discrete representation

긴 오디오를 좀 더 간단한 비연속 표현법(discrete representation)방식으로 인코딩하여 사용하는 것은 최근 자주 찾아볼 수 있는 오디오 처리 방식. TTS분야에서도 레이블이 없는 오디오 데이터를 unsupervised방식으로 이용하고자 하는 연구에서 이런 비연속 표현법들이 사용됨. [Tjandra19]에서는 VQ-VAE를 사용하여 오디오를 코드화한 후 Code2Seq로 스펙트로그램을 만드는 방식을 제안함.  [Zhang20a]에서 또한 VQ-VAE를 이용하여 오디오 데이터에서 lingustic unit을 추출하고 이 둘의 쌍(linguistic unit, audio)으로 먼저 TTS모델을 훈련한 다음, 실제 데이터로 fine-tuning하는 방식이 효과가 있다는 것을 보여줌. [Liu20a]에서는 SeqRQ-AE라는 방식의 표현법을 이용하는데, 이를 phoneme시퀀스와 비슷하게 훈련한 다음 작은 수의 쌍 데이터로 SeqRQ-AE인코딩 데이터와 phoneme간의 매핑을 구해서 레이블이 없는 많은 수의 오디오를 활용하는 방법을 제안함. [Tu20]에서는 이를 멀티스피커버전으로 확장시킴. 

 

Voice conversion

스피커 A의 어떤 스타일의 스피치를 만들고 싶은데 데이터가 별로 없다면, 다른 스피커 B의 동일한 스타일의 오디오를 이용할 수는 없을까? 물론 목소리가 다르지만 이를 바꿔주는 voice conversion(VC)이라는 기술이 있음. 아마존에서 나온 연구[Huybrechts21]에서는 VC를 이용하여 다른 사람의 데이터의 목소리를 바꿔 data augmentation를 하여 적은 양의 데이터로도 좋은 퀄리티의 스피치를 생성하는 방법을 제안함. 같은 팀에서 나온 후속 연구[Comini22]에서는 같은 스타일이 아니어도 그냥 맹맹한 스피치라도 이를 바꾸어 사용하는 방법을 제안함. 여기에서는 F0에 따라 변화하는 VC를 훈련하여 맹맹한 소리도 좀 더 느낌있는 소리로 바꾸어 이를 augmentation하는 방식을 이용. 네이버/라인에서 최근에 나온 연구[Terashima22]도 비슷한 아이디어를 소개하는데, 적은 양의 타겟 스피치의 데이터의 pitch dynamics를 다양하게 하기 위하여 pitch shift를 이용하여 data augmentation을 수행함. 이로 인해 훈련도 안정적으로 할 수 있고 결과 오디오의 퀄리티도 좋아짐.  

 

Cross-lingual transfer

어차피 언어는 사람이 말하는 것이니 영어랑 아프리카 어느 지역 원주민 언어랑 분명 공통점이 있을 것임. 영어같은 데이터가 많은 모델을 먼저 훈련시키고 이를 다른 언어 모델로 transfer시키는 방법론도 다양하게 소개되고 있음. 우선 [Guo18][Zhang19c]에서는 많은 데이터가 있는 중국어(Mandarin)와 데이터가 얼마 없는 티벳어(Tibetan)를 함께 훈련시켜 중간 모델(average voice model)을 만들고 그 후에 각 언어에 따라 모델을 훈련시키면, 티벳어의 퀄리티가 더 올라간다는 것을 보임. [Azizah20]에서는 먼저 영어로 훈련시키고, 그 다음으로 인도네시아어, 다음으로 자바어(Javanese)와 순다어(Sundanese)로 순차적으로 (데이터가 더욱 적은) 언어로 transfer시키는 방법을 제안함.

 

[Chen19a]에서는 언어간의 linguistic symbol들의  매핑을 학습하여 이를 이용하여 transfer learning을 수행하는 방법을 제안함. [Xu20]에서는 많은 데이터로 훈련한 모델에서 다른 모든 것은 그대로 두고 데이터가 적은 언어의 phoneme/character embedding과 speaker embedding만 fine-tuning시켜도 잘 동작한다는 것을 보임. 여러 언어 데이터를 함께 훈련(multilingual modeling)하면 하나의 언어 데이터만 훈련하는 것보다 나은 성능을 보여주는 경우가 있는 것은 예전부터 알려진 사실이었음(당연하겠지만 NLP에서도 공통된 발견을 함). [deKorte20]에서는 여기에 low-resourced 언어에 보다 집중하여 어떠한 전략으로 데이터를 더해야지 합성 결과가 더 좋아지는 지에 대해서 논함. [Nekvinda20]는 contextual parameter generator network를 활용하여 10개의 언어에 대한 모델을 만들고, [Yang20b]은 50개의 언어의 데이터를 이용하여 Universal TTS 모델을 만드는 시도를 함. 여기서는 각 언어별로 데이터의 양이 다르므로 훈련할 때 이를 잘 고려하는 것이 좋은 성능의 모델을 만드는 데 중요하다고 보고함. 

 

With ASR

ASR(automatic speech recognition)과 TTS는 서로 반대의 작업을 하지만 알고보면 매우 비슷한 동전의 양면 같은 기술임. 만약 종이에 적힌 어떤 메시지가 있을 때 어떤 사람이 그것을 말로 전해주면 듣는 사람은 그것을 다시 마음속에 메시지로 기억하게 됨. 이러한 speech chain을 기술적으로도 생각해볼 수 있음. 만일 ASR이 레이블이 없는 오디오를 텍스트로 만들면, TTS는 새로 만들어진 오디오와 텍스트 쌍의 데이터를 가지고 훈련을 할 수 있음. 또한 TTS에서 생성된 오디오는 ASR이 훈련하는데도 도움을 줄 수 있음. DL을 사용하여 이렇게 두 모델을 동시에 훈련하는 방식은 [Tjandra17]에서 처음 제안하였고 실제로 각자 훈련하는 것보다 더 좋은 결과를 얻을 수 있었음. 그 후 [Tjandra18]에서는 여기에다가 Speaker Recognition을 추가하여 멀티스피커 모델의 성능을 더욱 향상시켰음. 

 

[Ren19b]에서는 이 방법론에 low-resourced 언어에 대한 고려까지 더하여, 단지 200개의 쌍 데이터와 레이블이 되지 않은 데이터만으로도 좋은 성능의 TTS와 ASR 모델을 생성해냈음. LRSspeech[Xu20]에서는 이보다도 더 적은 데이터만으로도(extremly low-resourced) 모델을 생성하는 방법을 제안함. 

 

참고로 ASR은 TTS와 또다른 방향으로도 연결될 수 있는데, 오디오 인풋을 ASR이 중간 표현(e.g.텍스트)로 변경하고 언어 번역을 한 후 이를 다시 TTS가 오디오로 변경하여 Speech-to-Speech 변역 모델을 만들 수도 있음. 잘만된다면 대박인 이러한 컨셉은 사실 오래전부터 있어왔지만 대부분 여러 모듈로 나누어서 구성되었음. 이 또한 (또다른 의미의) End-to-End 방식으로 성공적으로 적용한 결과는 비교적 최근 구글 논문[Jia19]에 찾아볼 수 있음. 단 이 모델에서는 두 언어의 phoneme sequence를 예측하는 부분이 있는데, 만일 글씨를 사용하지 않는 언어(생각보다 많음)의 경우에는 이 방법을 쓸 수가 없음. 이러한 경우까지 다루기 위하여 UWSpeech[Zhang21a]에서는 VQ-VAE를 확장한 XL-VAE를 제안하여 두 언어를 discrete tokend으로 표현하여 Speech-to-Speech 번역을 수행하게 함.

 

VII. Expressive TTS

TTS의 궁극적인 목적은 사람처럼 자연스러운 스피치를 만들어내는 것임. 실제 사람의 목소리가 로보트 목소리와 다른 점은 사람의 목소리에는 보다 '감정'이 들어있다는 점임. 즉 더욱 좋은 퀄리티의 TTS를 만들려면 이러한 '감정'을 잘 표현해야 하는데,  사실 어려운 문제임. 왜냐하면 TTS는 one-to-many 매핑 문제, 즉 하나의 텍스트에서 매우 다양한 스피치가 생성될 수 있는 성질을 지니고 있기 때문임. 사람의 경우도 하나의 텍스트를 읽더라도 각 사람마다, 그리고 현재 기분에 따라 항상 다르게 읽을 것임.

 

Using additional inputs

가장 먼저 생각해 볼 수 있는 것은 텍스트 외에도 다른 레이블을 함께 넣어주는 것임. 예를 들어 prosody의 정보를 직접 annotation을 하여 모델에 제공하면 이를 이용하여 학습할 수 있을 것임. 실제로 이를 위한 여러 툴과 방법론들이 존재함(ToBI, AuToBI, Tilt, INTSINT, SLAM등). 하지만 이렇게 직접 손으로 레이블링을 하는 것은 딱봐도 어려움ㅠㅜ. 따라서 직접 오디오에서 정보를 계산하여 이를 추가적인 인풋으로 사용하거나 더욱 직관적인 간단한 방식의 인풋을 넣는 모델이 더 널리 사용되게 되었음.

 

예를 들어 FastSpeech 2[Ren21a]에서는 duration, pitch, energy 정보를 예측하는 부분이 추가되었음. FastPitch[Łancucki21]에도 추가적으로 세세하게 pitch를 조정할 수 있음. 이를 개선한 FastPitchFormant[Bak21]에서는 source-filter모델을 acoustic model에 적용하여 더욱 pitch를 robust하게 조절할 수 있는 방법을 제안함. Styler[Lee21c]에서는 pitch, duration, energy에다가 noise 정보까지 활용하여 더욱 noise에 robust하게 스타일을 조절할 수 있는 방법을 소개함. 

 

CHiVE[Kenter19]에서도 prosodic features(f0, energy, duration)이 사용됨. Adobe에서는 Audition이라는 제품이 있기 때문에 오디오 연구도 많이 진행하고 있음. 이 곳에서 나온 [Morrison20]에서는 prosody를 F0 contour형태로 넣어주는 방식을 제안하며 [Morrison21]에서는 LPCNet을 개선하여 pitch와 time을 자연스럽게 조정할 수 있는 Controllable LPCNet을 소개함. Nvidia에서 나온 Mellotron[Valle20b]에서도 pitch contour를 비롯하여 세부적인 speed등도 입력으로 받아서 사용함. 이렇게 음정까지 조절할 수 있는 모델들은 실제로 TTS에서 singing voice synthesis(SVS)로 확장할 수 있는 가능성도 가지고 있음.  NCSOFT에서 나온 [Bae20]의 경우 문장의 속도를 직관적인 speaking rate(SR)값 하나로 조정하는 방법을 제안함. 이를 위해 속도에 따라 다른 매칭을 훈련하도록함. [Christidou21]에서는 클러스터링을 이용하여 F0과 duration을 phoneme단위로 세세하게 조절할 수 있는 방법을 제안함. 

 

물론 prosody의 정보를 더욱 정확하게 넣어주면 가장 좋긴 함. 특히 중국어처럼 톤(성조)이 중요한 언어라면 더욱 그러할 거임. 따라서 최근까지도 뉴럴네트워크를 잘 훈련시켜 자동으로 annotation을 하려는 시도[Dai22]가 계속 이루어지고 있음. 

 

Using reference audio

더욱 간단하게 좀 더 느낌있는 스피치를 만드는 방법은 '이런식으로 말해라' 하는 레퍼런스를 주고 알아서 하게 하는 것임. 직접적인 입력에 반해 이 방법은 학습된 공간안에 정의된 latent variable을 이용하게 됨. 구글에서 나온 논문 두 편을 먼저 주목할만한데, 먼저 [Skerry-Ryan18]에서는 이를 위하여 reference encoder를 제안하고 prosody에 대한 임베딩 공간을 학습하게 함. 또 다른 논문 GST-Tacotron[Wang18]에서는 레퍼런스 인코더에 더하여 여러 종류의 스타일을 생성하여 이 중에서 선택할 수도 있게함. 이 연구들은 전체 스피커의 스타일을 변화시키는(global) 방법들임. 이후에 레퍼런스 인코더를 활용하면서도 점점 세세한 콘트롤(local)을 위한 논문들이 나옴. Neosapience에서 나온 연구[Lee19]에서는 레퍼런스 인코더에 temporal 적인 요소를 고려하여 더욱 세세하면서도 정확하게 모델링함. [Klimkov19]에서는 phoneme단위의 alignment를 이용하여 더욱 robust하게 prosody를 조절하게 함. 그러면 전체 스타일과 디테일한 스타일 모두 조정할 수 있지 않으면 더 좋지 않을까? [Li21b]에서는 이를 위한 multi-scale reference encoder를 제안함. 오디오의 음정(pitch)과 크기(loundness)[Gururani19], 혹은 음정과 속도[Valle20b]를 조정하는 다른 모델들도 reference encoder를 사용한 Tacotron을 백본으로 사용함. 

 

어떤 사람의 prosody를 다른 목소리에 입히는 방법도 생각해볼 수 있음. 이런 문제를 풀때 가장 어려운 것은 speaker와 prosody를 잘 구분할 수 있도록 훈련시키는 것이 생각보다 어렵다는 점임(데이터가 많이 필요함). Daft-Exprt[Zaidi21]에서는 GAN과 FiLM 레이어를 이용하여 이를 해결하는 방법을 제안함. 

 

Using VAE

오디오에서 expression을 효과적으로 표현하는 또 하나의 방법은 VAE를 사용하는 것. VAE 특성상 샘플링에 따라 다양한 결과를 만들어낼 수 있으므로 one-to-many문제를 효과적으로 풀수 있고 레퍼런스 오디오가 없어도 가능함. [Akuzawa18]부터 살펴보면 여기에서는 VAE와 VoiceLoop[Taigman18]와 결합하여 VAE-Loop를 제안함. GMVAE-Tacotron[Hsu19]에서는 이를 Gaussian Mixture모델로 확장하여 성능과 해석력(interpretability)을 높임. [Zhang19a]에서는 이를 이용하여 스타일을 컨트롤하는 방식을 제안함. [Klimkov19]에서도 VAE를 사용해서 성능을 더 높이는 방법을 제안.

 

기본적으로 VAE방식은 unsupervised 방식으로 latent variable을 발견하는 방식이지만 [Habib19]에서는 여기에 약간의 supervision을 더해 semi-supervised 방식으로 성능을 더욱 높임. 그 후 VAE기반 모델의 성능을 더욱 높이기 위하여 GF(quantized fine-grained)VAE를 도입[Sun20a]하기도 하고, 계층구조를 넣어 여러수준으로 콘트롤이 가능하게 하기도 함[Sun20b]. 이러한 콘트롤 방식은 Parallel Tacotron[Elias20]에서도 활용됨. 최근 NCSOFT에서 소개한 모델[Bae21]에서는 prosody를 모델링하기 위하여 계층구조와 멀티스케일을 동시에 지닌 VAE를 이용. 이를 통해 더욱 다양하면서도 자연스러운 스피치가 생성되도록 함. [Zhang21b]에서는 prosody에 대한 representation을 bottleneck layer를 이용하여 구함. 이를 위하여 VQ-VAE를 이용한 표현 형태를 활용함. 

 

Using advanced models

그 외 다른 생성 기법을 이용하여 좀 더 다양한 형태의 스피치를 만들고자하는 시도들도 있음. 예를 들어 adversarial 훈련 방식 또한 여러모델에서 적용되어 왔는데 [Ma19]에서는 오디오에서 context와 style을 좀 더 잘 구분(disentanglement)하기 위하여 이 방식을 이용함. 또한 Multi-SpectroGAN[Lee21b]에서도 mix-up형태로 스타일을 혼합한 형태를 adversarial하게 훈련함(Adversarial Style Combination). 사실 훈련데이터가 서로 더해져 oversmoothing하게 생성되는 결과를 좀 더 사실적이고 디테일이 살아있는 형태로 생성하고자 하는 시도는 이미지 분야에서 오랫동안 이루어져왔음. 앞서 언급한 GAN이 이러한 개선을 이룬 대표적인 생성방법이고 flow방식 및은 diffusion 방식도 동일한 목표를 지닌 생성기술들임. 따라서 이러한 기술들이 오디오 분야에 적용되어 나온 여러 연구들(이 글 앞 부분에 여러 관련 모델들을 소개했었음) 또한 더욱 사실적이고 다양한 형태의 스피치를 만들어내게 됨. 또한 이들 모델들은 GMM-MDN[Du21]처럼 여러 모드들을 갖는 확률적 모델(multi-modal 분포)이기 때문에 모두 샘플링을 어떻게 하는가에 따라서 결과를 컨트롤 할 수 있는 방식임. 따라서 자연스럽게 더욱 다양한 결과를 만들 수 있는 방식임.

 

Controlling emotion

감성(emotion)이란 무척 복잡한 다차원의 개념이지만, 사람에게는 가장 직관적인 표현형태이기도 함. 따라서 감정에 따라서 변화하는 스피치를 만들 수 있다면 참 좋을 것임. pitch 및 duration등이 low-level feature라면 emotion은 보다 high-level feature라고 볼 수도 있음. 감정을 컨트롤하는 모델을 만드는 가장 간단한 방법은 감정에 대한 레이블이 있는 데이터셋을 만들어 모델을 만드는 것. [Lee17]에서는 6가지 감정에 대한 레이블을 포함한 데이터셋(한국어!)을 만들어 Tacotron기반의 모델을 만듬. 그 후 EmoV-DB[Adigwe18] 같은 더욱 큰 규모의 이모션 데이터셋이 소개되기도 함. 하지만 상대적으로 데이터가 많아도 기존에 사용되는 일반 스피치 데이터셋에 비하면 수는 여전히 적음. 따라서 [Tits19a]에서는 Transfer Learning을 이용하여 위 감정 데이터와 일반 스피치 데이터셋 LJ-Speech를 함께 사용하는 방법을 제안함. 감정은 카테고리로 정의할 수도 있지만 Arousal-Valence같은 연속된 공간을 이용하여 표현할 수도 있음. [Sivaprasad21]에서는 이 공간을 활용하여 emotion을 콘트롤 할 수 있는 방법을 제안함. [Li21a]에서는 emotion에 대한 강도(strength)를 조절할 수 있는 방법 또한 제안함.

 

[Tits19b]에서는 효과적인 latent space에 대해서 연구를 하기도 하였음. GST-Tacotron[Wang18]에서 제안한 style encoder도 emotion을 콘트롤하는데 사용될 수 있으며, [Kwon19]에서는 style embedding vector의 평균을 사용한 반면 [Um20]에서는 감정 카테고리간의 관계를 더욱 정교하게 고려함. [Kim21c]에서는 태그를 이용한 방식을 제안함. 스타일 태그를 포함한 데이터셋(다시 한국어!)을 만든 후 Sentence BERT(SBERT)를 이용한 liguistic embedding과 speaking style embedding간의 연결을 통하여 태그로 컨트롤 할 수 있는 직관적인 TTS 시스템을 제안함. 최근 Neosapience에서도 스타일 태그 같은 일반 text로도 컨트롤 할 수 있는 모델을 제안하였음[Shin22]. 앞서 소개한 연구[Kim21c]와 비슷하지만 reference encoder를 이용한 style transfer까지 함께 구성하는 모델. MsEmoTTS[Lei22]에서는 여러 인풋(reference, text)을 사용하여 여러 수준(global, utterance-level, syllable-level)으로 감정을 조정하는 방법을 제안. 여기에서는 (중국어버전) BERT를 인풋에 해당하는 감정 카테고리를 예측하는 용도로 사용함. 최근 네이버에서도 유사한 방식, 즉 텍스트 인풋을 통해 감정의 종류와 강도를 구하는 모델을 소개했는데[Yoon22] 여기에서는 GPT-3를 사용하였음.

 

 

VIII. Adaptative TTS

Voice Adaptation

임의의 타겟 스피커의 목소리(unseen voice)로 TTS를 만들어내는 기술 또한 현실적으로 상당히 유용한 (그리고 무서운) 기술임(보통 voice adaptation혹은 voice cloning, 혹은 custom voice라고도 부름). 따라서 SPSS시절때부터 많은 연구가 있어왔는데, 이 역시 DL기술들에 힘입어 근래에 크게 발전하고 있는 중. 

 

본격적인 결과물이 나오기 시작한 2018년도부터 굵직한 논문들을 살펴보면, 일단 이때 당시 페북에서 나온 VoiceLoop[Taigman18]에서는 멀티스피치 모델을 제안하면서 speaker embedding을 사용하였음. 훈련에서 사용하지 않은 오디오(와 텍스트)를 이용하여 speaker embedding을 훈련하여 다른 목소리를 만들어낼 수 있다는 것을 보임. 그 후 같은 팀에서 이 모델을 개선시켜 contrastive triplet loss를 이용하여 speaker embedding을 예측하는 네트워크를 훈련함[Nachmani18]. 이를 이용하면 오디오 샘플로도 adaptation을 할 수 있음.

 

기본적으로 adaptation이 잘되려면 최대한 generalized된 모델이 있는 것이 중요함. 만일 이런 좋은 모델이 있다면 적은 양의 데이터로 기존의 네트워크를 fine-tuning하여 원하는 목소리로 좋은 품질의 오디오를 만들어낼 수 있을 것임. DeepVoice 시리즈를 발표했던 바이두 리서치에서 본격적으로 위와 같은 아이디어의 모델을 제안하였음[Arık18]. DV3를 기반으로 멀티스피커 모델을 크게 만들어놓고 여기에서 speaker embedding 혹은 전체 모델을 fine-tuning하게 됨. 아직은 퀄리티가 그리 좋지는 않았지만 그래도 몇개의 오디오 샘플(~100개, 텍스트는 없어도 됨)로도 목소리를 변경시킬 수 있다는 것을 보임. 구글도 가만이 있지 않았음. 구글에서는 speaker verification(말하는 사람이 누구지?)목적으로 훈련을 해놓은 커다란 모델이 있었는데, 이를 speaker encoder network으로 사용하여 speaker adaptation하는 기술을 선보임[Jia18]. 그 후 구글 본회사 + 딥마인드에서도 적은 수의 데이터로 adaptation을 하는 기술을 소개함[Chen19b]. 여기서는 스피커 임베딩에 더하여 아예 WaveNet 보코더까지 통째로 fine-tuning 해버림. 덕분에 더 좋은 결과를 만들어냄.

 

주제가 핫한만큼 다양한 회사에서 이를 개선하고자 하는 연구들이 소개됨. IBM에서는 자체적으로 만들었던 TTS모델(왓슨에서 사용되었다함)을 LPCNet으로 개선하면서 adaptation의 내용도 소개함[Kons19]. 마이크로소프트에서는 (1250시간에 달하는) 멀티스피커+멀티언어 데이터로 훈련시켜 작은 데이터(20초)로도 adaptation이 가능한 모델을 소개함[Yang20]. 텐센트에서는 이전에 DurIAN[Yu20]이라는 TTS모델을 만들었었는데 이를 확장시킨 AdaDurIAN[Zhang20b] 모델을 이어서 소개함. adaptation외에도 몇가지 구조적인 개선을 더 제안하고 있음. 사실 기존 모델에 약간의 데이터를 추가하여 모델을 바꾸는 것은 전형적인 Bayesian 방식이기도 함. 아마존에서는 Bayesian Optimization을 이용하여 adaptation을 수행하는 새로운 방식을 제안함[Moss20]. 한국에서도 Hyperconnect에서 Attentron라는 adaptation을 위한 TTS모델을 소개함[Choi20]. 여기에서는 멀티스케일의 인코더를 이용하여 품질을 높이게 됨. 

 

[Cooper20a]에서는 기존에 연구되었던 다양한 스피커 임베딩을 비교하는 연구를 수행하여 Learnable Dictionary Encoding(LDE)방식이 성능향상을 이룰 수 있다는 점을 밝힘. 다만 아직 훈련데이터에 overfitting되는 현상이 있어서 speaker augmentation으로 해결해보겠다고 논문 마지막에 써놓았는데 정말로 [Cooper20b]에서는 이렇게 함(future work에 진심인 케이스). 즉 가상의 스피커 소리를 만들고 이 데이터를 함께 활용함. [Chien21]에서도 여러 speaker representation방법을 비교하여 VC(voice conversion)로 훈련된 임베딩이 가장 좋은 결과를 얻었음. 이처럼 TTS(텍스트->스피치)와 VC(스피치->스피치)는 어찌보면 인풋만 다른 상당히 유사한 시스템이라고도 할 수 있음. Nautilus[Luong20]에서는 이 두 작업을 할 수 있는 하나의 모델을 만들면서 적은 데이터로도 adaptation을 할 수 있는 모델을 제안함. Adaptation 성능향상을 위해서도 ASR을 활용해볼 수 있지 않을까? [Yue21]에서는 정말 이방법도 먹힌다는 것을 보여줌.

 

2021년에는 마이크로소프트의 AdaSpeech시리즈가 소개됨. 먼저 AdaSpeech 버전 1[Chen21b]에서는 스피치가 녹음되는 다양한 녹음환경까지 고려하며 적은 수의 파라미터를 이용하는 모델을 제안함. 두가지 모두 현실적으로 필요한 기술들임. 다만 첫번째 버전에는 adaptation을 위해서 스피치와 텍스트가 함께 필요했는데, AdaSpeech2[Yan21a] 에서는 단지 오디오만 필요하도록 개선함. 대부분의 TTS에서는 사실 오디오북스타일의 책읽는 스타일의 스피치가 생성됨(왜냐면 데이터가 그런것밖에 없음). AdaSpeech3[Yan21b]에서는 보다 현실적인 스피치, 즉 말하는 도중 속도도 변하고 중간에 멈춤(음..)등도 모델링 할 수 있는 방법을 제안함. 서울대에서 Guided-TTS의 두번째 버전[Kim22b]을 발표하면서 기존 Guided-TTS에 speaker adaptation하는 부분을 추가함. 이를 위해서 speaker-conditional DDPM을 훈련하고 약간의 데이터로 fine-tuning하는 방법을 제안. 손흥민이나 골룸의 보이스를 사용하는 예제를 들어보면 소소한 재미가 있음. 

 

speaker adaptation을 위하여 (가능하면 적은 양의) 스피치 데이터를 주고 이를 이용하여 모델을 다시 훈련하는 방식(fine-tuning)을 보통 few-shot adaptationd이라고 부름. 하지만 이를 위해서 타겟 스피커의 스피치가 어느정도 필요함. 그리고 잘되려면 적어도 몇분간의 데이터가 있어야 함. 이는 사실 귀찮은 일. 가장 좋은 것은 그냥 짧은 스피치하나 주면 거기에서 스타일을 따와서 바로 적용하게 하는 것임. 이를 보통 zero-shot adaptation이라고 부름(물론 연구자마다 다른 용어를 쓰거나 좀 다르게 정의하는 경우도 있음). 이를 위해서는 물론 스타일도 잘 따야하고 잘 generalized된 모델도 필요함.

 

먼저 카이스트에서 나온 연구[Min21]를 주목할만한데 meta-learning방식으로 스타일을 딸 수 있도록 GAN으로 훈련한 모델. 그리고 몇 문단전에 소개한 [Cooper20a][Chien21]들도 이를 위한 모델들임. SC-GlowTTS[Casanova21]에서는 이름그대로 flow방식을 이용하여 효율성을 높인 zero-shot모델을 제안함. AdaSpeech 시리즈의 가장 최신 버전 AdaSpeech 4[Wu22a] 또한 몇가지 개선된 기술들을 이용하여 zero-shot의 성능을 높이는데 성공함. Zhejiang대학에서 최근에 소개한 GenerSpeech[Huang22]에서는 여러 레벨로 구성된 style adaptor을 이용하여 더욱 스타일을 잘 캡쳐하고, mix-style layer normalization으로 스타일을 더욱 잘 분리해내어 더욱 향상된 zero-shot결과를 보임.

 

[Pan21]에서는 style transfer가 왜 잘 안될까 고민끝에 몇가지 분석 결과를 보고하고 별도의 prosody bottleneck을 이용하여 성능을 높이는 방법을 제안함. 대부분의 prosody transfer는 단일 스피커를 기준으로 하곤 하는데 [Lux22]에서는 이를 멀티스피커 버전으로도 확장함. 즉 스피커와 prosody를 완전히 분리할 수 있음을 보임. 같은 팀에서는 이 기술을 바탕으로 PoeticTTS[Koch22] 즉 시를 읽어주는 TTS를 제안함. 시를 읽는 것 같은 독특한 prosody를 학습하여 보이스를 바꾸더라도 동일한 스타일로 읽어주는 시스템임. 

 

Environment Adaptation

사람은 환경에 따라 다르게 말함. 예를 들어 시끄러운 곳에서는 무의식적으로 더 큰소리로 다른 톤으로 말을 하게 됨. 이를 Lombard style이라고 하는데 SPSS시절에 제법 연구가 되다가 Neural TTS 시대에서는 [Bollepalli19]에서 개선된 버전을 찾아볼 수 있음. 사실 이쯤되면 기술은 어느정도 있지만 가장 문제가 되는 것은 이런 스타일의 데이터가 별로 없다는 것. 따라서 여기서는 Transfer Learning방식을 이용함. 그 뒤 더욱 개선된 시그널 프로세싱 기술을 이용한 모델 Lombard-SSDRC TTS[Paul20b](아 이름 길다..)도 제안됨. 사실 사람은 시끄러운 환경말고도 너무 조용한 환경(도서실같은..)에서도 소리를 다르게 냄. 즉 속삭이는 말투로 이야기 하는데 이러한 환경까지 함께 고려하여 만든 모델[Hu21]도 제안되었음. 논문 발표안하기로 유명한 Apple에서 나온 논문인데 나름 연구할 필요가 충분히 있었던 현실적인 주제였던듯.

 

Language Adaptation

또하나의 adaptation은 언어에 대한 adaptation임(language adaptation). 즉 한국말만 유창한 내 목소리로  영어 혹은 나이지리아 소수민족의 언어 Njerep도 말할 수 있게 되는 기술(데이터만 있다면..). code-swiching이라고도 불리는 충분히 흥미로운 기술인지라 역시 여러 회사 및 연구자들이 연구결과를 발표하고 있음. language adaptation가 voice adaptation에 비해서 어려운 점은 사람은 발음하는 기관이 다들 비슷한 반면 언어는 각자 차이가 크다는 점임. 영어와 한국어만 하더라도 문법도 다르고 문자도 다르고 발음도 다 다름. 또한 가장 이상적인 데이터는 두개 이상의 언어를 완벽하게 구사하는 사람들의 스피치를 녹음하여 그 차이를 분석하는 것이지만 이러한 데이터는 구하기가 너무 비쌈(실제로 초창기에는 이런 데이터로 훈련했음[Ming17]).

 

본격적으로 실용적인 기술은 2019년경에 나오기 시작함. 페북에서 제안한 [Nachmani19]은 영어와 스페인어, 독일어 3개의 언어에 대한 네트워크를 각각 구성하고 스피커에 대한 임베딩은 서로 공유하며 최대한 스피커의 특성이 비슷하게 로스를 설정하여 훈련을 성공시킴. 각 언어마다 사용하는 캐릭터(grapheme)가 달라 이를 다르게 표현할 수 밖에 없다는 것도 언어 adaptation에서 고려해야 하는 또다른 문제임(중국어의 캐릭터는 엄청난 수임). 구글에서 나온 [Li19b]에서는 각 언어의 캐릭터들을 유니코드로 변경하여 사용하는 똑똑한 방식을 제안. 구글의 또다른 논문[Zhang19d]에서는 adversarial 훈련을 사용하여 여러 언어를 하나의 네트워크를 사용해서 훈련하는 방법을 제안함. 이 논문에서는 여러 표현형태를 실험하기도 했는데 phoneme을 사용하는 방법이 가장 좋았다고 보고함.

 

만일 처음보는 언어를 사용하고 싶다면 어떻게 하면될까? 앞서봤던 zero shot 세팅과 유사한 문제이긴 하지만 여기서는 역시 표현법이 문제가 됨. [Staib20]에서는 발음에 대한 국제표준인 International Phonetic Alphabet (IPA)를 이용하는 방식을 제안함. 영어와 스페인어를 IPA로 바꾸어 훈련을 한 후, 훈련 데이터에 없던 독일어를 IPA형식으로 바꾸어 모델에 적용하는 예를 보여줌. 이론상 어떠한 언어라도 IPA형태로 바꿀 수 있다면 적용가능한 모델임. 그 뒤 [Hemati20] 같은 모델에서도 IPA형태의 인풋이 종종 사용됨.

 

두 언어를 모두 잘 구사하는 사람의 데이터를 많이 구하기 어렵지만 주변에 그런 (부러운) 친구가 한 명 정도는 있을 수 있음. [Maiti20]에서는 오직 한 사람의 bilingual 데이터를 이용하여 language adpatation을 하는 방식을 제안함. 즉 이 사람의 speaker embedding space를 보다보니 두 언어에 대한 각각의 클러스터를 구할 수 있었고, 단순히 이 클러스터를 이동하는 것만으로도 좋은 퀄리티의 adaptation이 이루어질 수 있다는 사실을 발견함. 만일 두 언어간의 switch만을 고려한다면 보다 정교한 방법을 사용할 수 있음. 예를 들어 [Zhou20]에서는 두 언어의 word embedding을 먼저 훈련하여 이용하여 더욱 자연스러운 언어간 switching을 이루는 시스템을 제안함. 또한 voice conversion방법으로 합성된 bilingual 데이터를 만든 후 이를 augmentation 방식으로 이용하니 성능이 더 좋아졌다는 결과[Zhao20]도 있음.

 

그 이후에는 (가장 만들기 쉬운) 하나의 언어에 대한 데이터셋을 여러개 사용하여 language adaptation 모델을 만드는 것이 일반적이게 됨. [Chen19c]에서는 speaker embedding을 별도로 잘만들어 (퀄리티가 좋진 않지만) 가능하다는 것을 보였고, [Zhang19d]에서는 adversarial training을 이용하여 언어와 스피커의 구분을 더 잘 할 수 있도록 훈련함. 그 후 비슷한 접근법을 사용하여 언어의 수는 10개[Nekvinda20] 그 이상으로도 늘어남. 한국의 MINDsLAB에서 나온 SANTE-TTS[Cho22]에서는 거기에 speaker regularization loss를 추가하여 speaker와 language를 분리하는 성능을 더 놓임. 

 

 

IX. 맺음말

쓰다보니 글이 상당히 길어졌네요.. TTS분야가 그만큼 활발히 연구되고 많이 발전했다는 의미이겠죠? TTS의 발전과정을 쭉 보다보면 ML분야의 생성분야의 발전과정을 보는 듯 하여 재미있습니다. 그리고 어떻게 오디오 분야에 속속히 적용되는지도요. 그리고 곳곳에 기여하고 있는 한국 연구자들의 논문들도 많이 찾아볼 수 있어서 기쁘기도 합니다. 계속 업데이트는 하고 있는데, 분명 빠진 중요한 논문이나 실수한 내용도 있을 듯 싶어요. 항상 그러한 의견 환영합니다!  그럼 모두들 화이팅 합시다요^^

 

* 앞서 말한대로 전체 내용은 [Tan21]을 참고하였고, 가장 최근까지 공개된 논문들을 추가하였습니다. 또한 Weekly Ai ArXiv에서 소개된 논문들 및 여러 AI관련 뉴스레터들의 내용을 참고하였습니다. 논문을 소개해주신 네이버 하정우 소장님과 NCSOFT 이경훈님 감사드립니다!

 

 

X. Reference

  • [Griffin84] D.Griffin, J.Lim. Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2):236–243, 1984.
  • [Kawahara06] H.Kawahara. Straight, exploitation of the other aspect of vocoder: Perceptually isomor- phic decomposition of speech sounds. Acoustical science and technology, 27(6):349–353, 2006.
  • [Zen13] H.Zen, A.Senior, M.Schuster. Statistical parametric speech synthesis using deep neural networks. ICASSP 2013.
  • [Fan14] Yuchen Fan, Yao Qian, Feng-Long Xie, and Frank K Soong. TTS synthesis with bidirectional lstm based recurrent neural networks. Fifteenth annual conference of the international speech communication association, 2014.
  • [Qian14] Y. Qian, Y.-C. Fan, W.-P. Hum, F. K. Soong, On the training aspects of deep neural network (DNN) for parametric TTS synthesis. ICASSP 2014.
  • [Zen15] H.Zen, Hasim Sak. Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis. ICASSP 2015.
  • [Morise16] M.Morise, F.Yokomori, K.Ozawa. World: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems, 99(7):1877–1884, 2016.
  • [Oord16] A.van den Oord, S.Dieleman, H.Zen, K.Simonyan, O.Vinyals, A.Graves, N.Kalchbrenner, A.Senior, K.Kavukcuoglu. WaveNet: A generative model for raw audio. arXiv preprint arXiv:1609.03499, 2016. [논문리뷰]
  • [Arık17a] S.Ö.Arık, M.Chrzanowski, A.Coates, G.Diamos, A.Gibiansky, Y.Kang, X.Li, J.Miller, J.Raiman, S.Sengupta, M.Shoeybi. Deep Voice: Real-time neural text-to-speech. ICML 2017. [논문리뷰]
  • [Arık17b] S.Ö.Arık, G.Diamos, A.Gibiansky, J.Miller, K.Peng, W.Ping, J.Raiman, Y.Zhou. Deep Voice 2: Multi-speaker neural text-to-speech. NeurIPS 2017. [논문리뷰]
  • [Lee17] Y.Lee, A.Rabiee, S.-Y.Lee. Emotional end-to-end neural speech synthesizer. arXiv preprint arXiv:1711.05447, 2017.
  • [Mehri17] S.Mehri, K.Kumar, I.Gulrajani, R.Kumar, S.Jain, J.Sotelo, A.Courville, Y.Bengio. SampleRNN: An unconditional end-to-end neural audio generation model. ICLR 2017. [논문리뷰]
  • [Ming17] H.Ming, Y.Lu, Z.Zhang, M.Dong. Alight-weight method of building an LSTM-RNN-based bilingual TTS system. International Conference on Asian Language Processing 2017.
  • [Sotelo17] J.Sotelo, S.Mehri, K.Kumar, J.F.Santos, K.Kastner, A.Courville, Y.Bengio. Char2wav: End-to-end speech synthesis. ICLR workshop 2017. [논문리뷰]
  • [Tjandra17] A.Tjandra, S.Sakti, S.Nakamura. Listening while speaking: Speech chain by deep learning. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 2017.
  • [Wang17] Y.Wang, RJ Skerry-Ryan, D.Stanton, Y.Wu, R.Weiss, N.Jaitly, Z.Yang, Y.Xiao, Z.Chen, S.Bengio, Q.Le, Y.Agiomyrgiannakis, R.Clark, R.A.Saurous. Tacotron: Towards end-to-end speech synthesis. Interspeech 2017. [논문리뷰]
  • [Adigwe18] A.Adigwe, N.Tits, K.El Haddad, S.Ostadabbas, T.Dutoit. The emotional voices database: Towards controlling the emotion dimension in voice generation systems. arXiv preprint arXiv:1806.09514, 2018.
  • [Akuzawa18] K.Akuzawa, Y.Iwasawa, Y.Matsuo. Expressive speech synthesis via modeling expressions with variational autoencoder. Interspeech 2018.
  • [Arık18] S.Ö.Arık, J.Chen, K.Peng, W.Ping, Y.Zhou. Neural voice cloning with a few samples. NeurIPS 2018.
  • [Chae18] M.-J.Chae, K.Park, J.Bang, S.Suh, J.Park, N.Kim, L.Park. Convolutional sequence to sequence model with non-sequential greedy decoding for grapheme to phoneme conversion. ICASSP 2018.
  • [Guo18] W.Guo, H.Yang, Z.Gan. A dnn-based mandarin-tibetan cross-lingual speech synthesis. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2018.
  • [Kalchbrenner18] N.Kalchbrenner, E.Elsen, K.Simonyan, S.Noury, N.Casagrande, E.Lockhart, F.Stimberg, A.van den Oord, S.Dieleman, K.Kavukcuoglu. Efficient neural audio synthesis. ICML 2018. [논문리뷰]
  • [Jia18] Y.Jia, Y.Zhang, R.J.Weiss, Q.Wang, J.Shen, F.Ren, Z.Chen, P.Nguyen, R.Pang, I.L.Moreno, Y.Wu. Transfer learning from speaker verification to multispeaker text-to-speech synthesis. NeurIPS 2018.
  • [Jin18] Z.Jin, A.Finkelstein, G.J.Mysore, J.Lu. FFTNet: A real-time speaker-dependent neural vocoder. ICASSP 2018.
  • [Juvela18] L.Juvela, V.Tsiaras, B.Bollepalli, M.Airaksinen, J.Yamagishi, P. Alku. Speaker-independent raw waveform model for glottal excitation. Interspeech 2018.
  • [Nachmani18] E.Nachmani, A.Polyak, Y.Taigman, L.Wolf. Fitting new speakers based on a short untranscribed sample. ICML 2018.
  • [Okamoto18a] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, and H. Kawai. An investigation of subband wavenet vocoder covering entire audible frequency range with limited acoustic features. ICASSP 2018.
  • [Okamoto18b] T. Okamoto, T. Toda, Y. Shiga, and H. Kawai. Improving FFT-Net vocoder with noise shaping and subband approaches. IEEE Spoken Language Technology Workshop (SLT) 2018.
  • [Oord18] A.van den Oord, Y.Li, I.Babuschkin, K.Simonyan, O.Vinyals, K.Kavukcuoglu, G.van den Driessche, E.Lockhart, L.C.Cobo, F.Stimberg et al., Parallel WaveNet: Fast high-fidelity speech synthesis. ICML 2018. [논문리뷰]
  • [Ping18] W.Ping, K.Peng, A.Gibiansky, S.O.Arık, A.Kannan, S.Narang, J.Raiman, J.Miller. Deep Voice 3: Scaling text-to-speech with convolutional sequence learning. ICLR 2018. [논문리뷰]
  • [Shen18] J.Shen, R.Pang, R.J.Weiss, M.Schuster, N.Jaitly, Z.Yang, Z.Chen, Y.Zhang, Y.Wang, RJ S.Ryan, R.A.Saurous, Y.Agiomyrgiannakis, Y.Wu. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. ICASSP 2018. [논문리뷰]
  • [Skerry-Ryan18] R.J.Skerry-Ryan, E.Battenberg, Y.Xiao, Y.Wang, D.Stanton, J.Shor, R.Weiss, R.Clark, R.A.Saurous. Towards end-to-end prosody transfer for expressive speech synthesis with tacotron. ICML 2018.
  • [Tachibana18] H.Tachibana, K.Uenoyama, S.Aihara. Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention. ICASSP 2018.
  • [Taigman18] Y.Taigman, L.Wolf, A.Polyak, E.Nachmani. VoiceLoop: Voice fitting and synthesis via a phonological loop. ICLR 2018.
  • [Tjandra18] A.Tjandra, S.Sakti, S.Nakamura. Machine speech chain with one-shot speaker adaptation. Interspeech 2018.
  • [Wang18] Y.Wang, D.Stanton, Y.Zhang, R.J.Skerry-Ryan, E.Battenberg, J.Shor, Y.Xiao, Y.Jia, F.Ren, R.A.Saurous. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis. ICML 2018.
  • [Bollepalli19] B.Bollepalli, L.Juvela, P.Alkuetal. Lombard speech synthesis using transfer learning in a Tacotron text-to-speech system. Interspeech 2019.
  • [Chen19a] Y.-J.Chen, T.Tu, C.-c.Yeh, H.-Y.Lee. End-to-end text-to-speech for low-resource languages by cross-lingual transfer learning. Interspeech 2019.
  • [Chen19b] Y.Chen, Y.Assael, B.Shillingford, D.Budden, S.Reed, H.Zen, Q.Wang, L.C.Cobo, A.Trask, B.Laurie, C.Gulcehre, A.van den Oord, O.Vinyals, N.de Freitas. Sample efficient adaptive text-to-speech. ICLR 2019.
  • [Chen19c] M.Chen, M.Chen, S.Liang, J.Ma, L.Chen, S.Wang, J.Xiao. Cross-lingual, multi-speaker text-to-speech synthesis using neural speaker embedding. Interspeech 2019.
  • [Chung19] Y.-A.Chung, Y.Wang, W.-N.Hsu,Y.Zhang, R.J.Skerry-Ryan.Semi-supervised training for improving data efficiency in end-to-end speech synthesis. ICASSP 2019.
  • [Donahue19] C.Donahue, J.McAuley, M.Puckette. Adversarial audio synthesis. ICLR 2019. [논문리뷰]
  • [Fang19] W.Fang, Y.-A.Chung, J.Glass. Towards transfer learning for end-to-end speech synthesis from deep pre-trained language models. arXiv preprint arXiv:1906.07307, 2019.
  • [Guo19] H.Guo, F.K.Soong, L.He, L.Xie. A new GAN-based end-to-end tts training algorithm. Interspeech 2019.
  • [Gururani19] S.Gururani, K.Gupta, D.Shah, Z.Shakeri, J.Pinto. Prosody transfer in neural text to speech using global pitch and loudness features. arXiv preprint arXiv:1911.09645, 2019.
  • [Habib19] R.Habib, S.Mariooryad, M.Shannon, E.Battenberg, R.J.Skerry-Ryan, D.Stanton, D.Kao, T.Bagby. Semi-supervised generative modeling for controllable speech synthesis. ICLR 2019.
  • [Hayashi19] T. Hayashi, S. Watanabe, T. Toda, K. Takeda, S. Toshniwal, and K. Livescu. Pre-trained text embeddings for enhanced text-to-speech synthesis. Interspeech 2019.
  • [Hsu19] W.-N.Hsu, Y.Zhang, R.J.Weiss, H.Zen, Y.Wu, Y.Wang, Y.Cao, Y.Jia, Z.Chen, J.Shen, P.Nguyen, R.Pang. Hierarchical generative modeling for controllable speech synthesis. ICLR 2019.
  • [Jia19] Y.Jia, R.J.Weiss, F.Biadsy, W.Macherey, M.Johnson, Z.Chen, Y.Wu. Direct speech-to-speech translation with a sequence-to-sequence model. Interspeech 2019.
  • [Juvela19] L.Juvela, B.Bollepalli, J.Yamagishi, P.Alku. Gelp: Gan-excited linear prediction for speech synthesis from mel-spectrogram. Interspeech 2019.
  • [Kim19] S.Kim, S.Lee, J.Song, J.Kim, S.Yoon. FloWaveNet: A Generative flow for raw audio. ICML 2019. [논문리뷰]
  • [Kenter19] T.Kenter, V.Wan, C.-A.Chan, R.Clark, J.Vit. Chive: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network. ICML 2019.
  • [Klimkov19] V.Klimkov, S.Ronanki, J.Rohnke, T.Drugman. Fine-grained robust prosody transfer for single-speaker neural text-to-speech. Interspeech 2019.
  • [Kons19] Z.Kons, S.Shechtman, A.Sorin, C.Rabinovitz, R.Hoory. High quality, lightweight and adaptable TTS using LPCNet. Interspeech 2019.
  • [Kwon19] O.Kwon, E.Song, J.-M.Kim, H.-G.Kang. Effective parameter estimation methods for an excitnet model in generative text-to-speech systems. arXiv preprint arXiv:1905.08486, 2019.
  • [Kumar19] K.Kumar, R.Kumar, T.de Boissiere, L.Gestin, W.Z.Teoh, J.Sotelo, A.de Brebisson, Y.Bengio, A. Courville. MelGAN: Generative adversarial networks for conditional waveform synthesis. NeurIPS 2019. [논문리뷰]
  • [Lee19] Y.Lee, T.Kim. Robust and fine-grained prosody control of end-to-end speech synthesis. ICASSP 2019.
  • [Li19a] N.Li, S.Liu, Y.Liu, S.Zhao, M.Liu, M.Zhou. Neural speech synthesis with transformer network. AAAI 2019. [논문리뷰]
  • [Li19b] B. Li, Y. Zhang, T. Sainath, Y. Wu, W. Chan. Bytes are all you need: End-to-end multilingual speech recognition and synthesis with bytes. ICASSP, 2019.
  • [Lorenzo-Trueba19] J.Lorenzo-Trueba, T.Drugman, J.Latorre, T.Merritt, B.Putrycz, R.Barra-Chicote, A.Moinet, V.Aggarwal. Towards achieving robust universal neural vocoding. Interspeech 2019.
  • [Ma19] S.Ma, D.Mcduff, Y.Song. Neural TTS stylization with adversarial and collaborative games. ICLR 2019.
  • [Ming19] H. Ming, L. He, H. Guo, and F. Soong. Feature reinforcement with word embedding and parsing information in neural TTS. arXiv preprint arXiv:1901.00707, 2019.
  • [Nachmani19] E.Nachmani, L.Wolf. Unsupervised polyglot text to speech. ICASSP 2019.
  • [Ping19] W.Ping, K.Peng, J.Chen. ClariNet: Parallel wave generation in end-to-end text-to-speech. ICLR 2019. [논문리뷰]
  • [Prenger19] R.Prenger, R.Valle, B.Catanzaro. WaveGlow: A flow-based generative network for speech synthesis. ICASSP 2019. [논문리뷰]
  • [Ren19a] Y.Ren, Y.Ruan, X.Tan, T.Qin, S.Zhao, Z.Zhao, T.Y.Liu. FastSpeech: Fast, robust and controllable text to speech. NeurIPS 2019. [논문리뷰]
  • [Ren19b] Y.Ren, X.Tan, T.Qin, S.Zhao, Z.Zhao, T.-Y.Liu. Almost unsupervised text to speech and automatic speech recognition. ICML 2019.
  • [Song19] E.Song, K.Byun, H.-G.Kang. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems. EUSIPCO, 2019.
  • [Tits19a] N.Tits, K.E.Haddad, T.Dutoit. Exploring transfer learning for low resource emotional TTS. SAI Intelligent Systems Conference. Springer 2019.
  • [Tits19b] N.Tits, F.Wang, K.E.Haddad, V.Pagel, T.Dutoit. Visualization and interpretation of latent spaces for controlling expressive speech synthesis through audio analysis,. arXiv preprint arXiv:1903.11570, 2019.
  • [Tjandra19] A.Tjandra, B.Sisman, M.Zhang, S.Sakti, H.Li, S.Nakamura. VQVAE unsupervised unit discovery and multi-scale code2spec inverter for zerospeech challenge 2019. Interspeech 2019.
  • [Valin19] J.-M.Valin, J.Skoglund. LPCNet: Improving neural speech synthesis through linear prediction. ICASSP 2019.
  • [Wang19a] X.Wang, S.Takaki, J.Yamagishi. Neural source-filter-based waveform model for statistical parametric speech synthesis. ICASSP 2019.
  • [Wang19b] X.Wang, S.Takaki, J.Yamagishi. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis. ISCA Speech Synthesis Workshop 2019.
  • [Yamamoto19] R.Yamamoto, E.Song, J.-M.Kim. Probability density distillation with generative adversarial networks for high-quality parallel waveform generation. Interspeech 2019.
  • [Yang19] B.Yang, J.Zhong, S.Liu. Pre-trained text representations for improving front-end text processing in Mandarin text-to-speech synthesis. Interspeech 2019.
  • [Zhang19a] Y.-J.Zhang, S.Pan, L.He, Z.-H.Ling. Learning latent representations for style control and transfer in end-to-end speech synthesis. ICASSP 2019.
  • [Zhang19b] M.Zhang, X.Wang, F.Fang, H.Li, J.Yamagishi. Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet. Interspeech 2019.
  • [Zhang19c] W.Zhang, H.Yang, X.Bu, L.Wang. Deep learning for mandarin-tibetan cross-lingual speech synthesis. IEEE Access 2019.
  • [Zhang19d] Y.Zhang, R.J.Weiss, H.Zen, Y.Wu, Z.Chen, R.J.Skerry-Ryan, Y.Jia, A.Rosenberg, B.Ramabhadran. Learning to speak fluently in a foreign language: Multilingual speech synthesis and cross-language voice cloning. Interspeech 2019.
  • [Azizah20] K.Azizah, M.Adriani, W.Jatmiko. Hierarchical transfer learning for multilingual, multi-speaker, and style transfer DNN-based TTS on low-resource languages. IEEE Access 2020.
  • [Bae20] J.-S.Bae, H.Bae, Y.-S.Joo, J.Lee, G.-H.Lee, H.-Y.Cho. Speaking speed control of end-to-end speech synthesis using sentence-level conditioning. Interspeech 2020.
  • [Binkowski20] M.Binkowski, J.Donahue, S.Dieleman, A.Clark, E.Elsen, N.Casagrande, L.C.Cobo, K.Simonyan. High fidelity speech synthesis with adversarial networks. ICLR 2020. [논문리뷰]
  • [Chen20] M.Chen, X.Tan, Y.Ren, J.Xu, H.Sun, S.Zhao, T.Qin. MultiSpeech: Multi-speaker text to speech with transformer. Interspeech 2020.
  • [Choi20] S.Choi, S.Han, D.Kim, S.Ha. Attentron: Few-shot text-to-speech utilizing attention-based variable-length embedding. Interspeech 2020.
  • [Cooper20a] E.Cooper, C.-I.Lai, Y.Yasuda, F.Fang, X.Wang, N.Chen, J.Yamagishi. Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings. ICASSP 2020.
  • [Cooper20b] E.Cooper, C.-I.Lai, Y.Yasuda, J.Yamagishi. Can speaker augmentation improve multi-speaker end-to-end TTS? Interspeech 2020.
  • [Cui20] Y.Cui, X.Wang, L.He, F.K.Soong. An efficient subband linear prediction for lpcnet-based neural synthesis. Interspeech 2020.
  • [deKorte20] M.de Korte, J.Kim, E.Klabbers. Efficient neural speech synthesis for low-resource languages through multilingual modeling. Interspeech 2020.
  • [Engel20] J.Engel, L.Hantrakul, C.Gu, A.Roberts, DDSP: Differentiable digital signal processing. ICLR 2020.
  • [Gritsenko20] A.Gritsenko, T.Salimans, R.van den Berg, J.Snoek, N.Kalchbrenner. A spectral energy distance for parallel speech synthesis. NeurIPS 2020.
  • [Hemati20] H.Hemati, D.Borth. Using IPA-based tacotron for data efficient cross-lingual speaker adaptation and pronunciation enhancement. arXiv preprint arXiv:2011.06392, 2020.
  • [Himawan20] I.Himawan, S.Aryal, I.Ouyang, S.Kang, P.Lanchantin, S.King. Speaker adaptation of a multilingual acoustic model for cross-language synthesis. ICASSP 2020.
  • [Hsu20] P.-C.Hsu and H.-Y.Lee. WG-WaveNet: Real-time high-fidelity speech synthesis without GPU. Interspeech 2020.
  • [Hwang20a] M.-J.Hwang, F.Soong, E.Song, X.Wang, H. ang, H.-G.Kang. LP-WaveNet: Linear prediction-based WaveNet speech synthesis. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2020.
  • [Hwang20b] M.-J.Hwang, E.Song, R.Yamamoto, F.Soong, H.-G.Kang. Improving LPCNet-based text-to-speech with linear prediction-structured mixture density network. ICASSP 2020.
  • [Jang20] W.Jang, D.Lim, J.Yoon. Universal MelGAN: A robust neural vocoder for high-fidelity waveform generation in multiple domains. arXiv preprint arXiv:2011.09631, 2020.
  • [Kanagawa20] H.Kanagawa, Y.Ijima. Lightweight LPCNet-based neural vocoder with tensor decomposition. Interspeech 2020.
  • [Kenter20] T. Kenter, M. K. Sharma, and R. Clark. Improving prosody of RNN-based english text-to-speech synthesis by incorporating a BERT model. Interspeech 2020.
  • [Kim20] J.Kim, S.Kim, J.Kong, S.Yoon. Glow-TTS: A generative flow for text-to-speech via monotonic alignment search. NeurIPS 2020 [논문리뷰]
  • [Kong20] J.Kong, J.Kim, J.Bae. HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis. NeurIPS 2020. [논문리뷰]
  • [Li20] N.Li, Y.Liu, Y.Wu, S.Liu, S.Zhao, M.Liu. RobuTrans: A robust transformer-based text-to-speech model. AAAI 2020.
  • [Lim20] D.Lim, W.Jang, G.O, H.Park, B.Kim, J.Yoon. JDI-T: Jointly trained duration informed transformer for text-to-speech without explicit alignment. Interspeech 2020.
  • [Liu20a] A.H.Liu, T.Tu, H.-y.Lee, L.-s.Lee. Towards unsupervised speech recognition and synthesis with quantized speech representation learning. ICASSP 2020.
  • [Liu20b] Z.Liu, K.Chen, K.Yu. Neural homomorphic vocoder. Interspeech 2020.
  • [Luong20] H.-T.Luong, J.Yamagishi. NAUTILUS: a versatile voice cloning system. IEEE/ACM Transactions on Audio, Speech, and Language Processing 2020.
  • [Maiti20] S.Maiti, E.Marchi, A.Conkie. Generating multilingual voices using speaker space translation based on bilingual speaker data. ICASSP 2020.
  • [Miao20] C.Miao, S.Liang, M.Chen, J.Ma, S.Wang, J.Xiao. Flow-TTS: A non-autoregressive network for text to speech based on flow. ICASSP 2020.
  • [Morrison20] M.Morrison, Z.Jin, J.Salamon, N.J.Bryan, G.J.Mysore. Controllable neural prosody synthesis. Interspeech 2020.
  • [Moss20] H.B.Moss, V.Aggarwal, N.Prateek, J.González, R.Barra-Chicote. BOFFIN TTS: Few-shot speaker adaptation by bayesian optimization. ICASSP 2020.
  • [Nekvinda20] T.Nekvinda, O.Dušek. One model, many languages: Meta-learning for multilingual text-to-speech. Interspeech 2020.
  • [Park20] K.Park, S.Lee. G2PM: A neural grapheme-to-phoneme conversion package for mandarin chinese based on a new open benchmark dataset. Interspeech 2020.
  • [Paul20a] D.Paul, Y.Pantazis, Y.Stylianou. Speaker Conditional WaveRNN: Towards universal neural vocoder for unseen speaker and recording conditions. Interspeech 2020.
  • [Paul20b] D.Paul, M.P.V.Shifas, Y.Pantazis, Y.Stylianou. Enhancing speech intelligibility in text-to-speech synthesis using speaking style conversion. Interspeech 2020.
  • [Peng20] K.Peng, W.Ping, Z.Song, K.Zhao. Non-autoregressive neural text-to-speech. ICML 2020[논문리뷰]
  • [Ping20] W.Ping, Ka.Peng, K.Zhao, Z.Song. WaveFlow: A compact flow-based model for raw audio. ICML 2020. [논문리뷰]
  • [Popov20a] V.Popov, M.Kudinov, T.Sadekova. Gaussian LPCNet for multisample speech synthesis. ICASSP 2020.
  • [Popov20b] V.Popov, S.Kamenev, M.Kudinov, S.Repyevsky, T.Sadekova, V.Bushaev, V.Kryzhanovskiy, D.Parkhomenko. Fast and lightweight on-device tts with Tacotron2 and LPCNet. Interspeech 2020.
  • [Shen20] J.Shen, Y.Jia, M.Chrzanowski, Y.Zhang, I.Elias, H.Zen, Y.Wu. Non-Attentive Tacotron: Robust and controllable neural TTS synthesis including unsupervised duration modeling. arXiv preprint arXiv:2010.04301, 2020.
  • [Song20] E.Song, M.-J.Hwang, R.Yamamoto, J.-S.Kim, O.Kwon, J.- M.Kim. Neural text-to-speech with a modeling-by-generation excitation vocoder. Interspeech 2020.
  • [Staib20] M.Staib, T.H.Teh, A.Torresquintero, D.S.R.Mohan, L.Foglianti, R.Lenain, J.Gao. Phonological features for 0-shot multilingual speech synthesis. Interspeech 2020.
  • [Sun20a] G.Sun, Y.Zhang, R.J.Weiss, Y.Cao, H.Zen, A.Rosenberg, B.Ramabhadran, Y.Wu. Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and autoregressive prosody prior. ICASSP 2020.
  • [Sun20b] G.Sun, Y.Zhang, R.J.Weiss, Y.Cao, H.Zen, Y.Wu. Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis. ICASSP 2020.
  • [Tian20] Q.Tian, Z.Zhang, L.Heng, L.Chen, S.Liu. FeatherWave: An efficient high-fidelity neural vocoder with multiband linear prediction. Interspeech 2020.
  • [Tu20] T.Tu, Y.-J.Chen, A.H.Liu, H.-y.Lee. Semi-supervised learning for multi-speaker text-to-speech synthesis using discrete speech representation. Interspeech 2020.
  • [Um20] S.-Y.Um, S.Oh, K.Byun, I.Jang, C.H.Ahn, H.-G.Kang. Emotional speech synthesis with rich and granularized control. ICASSP 2020.
  • [Valle20a] R.Valle, K.Shih, R.Prenger, B.Catanzaro. Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis. arXiv preprint arXiv:2005.05957, 2020.
  • [Valle20b] R.Valle, J.Li, R.Prenger, B.Catanzaro. Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens. ICASSP 2020.
  • [Vipperla20] R.Vipperla, S.Park, K.Choo, S.Ishtiaq, K.Min, S.Bhattacharya, A.Mehrotra, A.G.C.P.Ramos, N.D.Lane. Bunched LPCNet: Vocoder for low-cost neural text-to-speech systems. Interspeech 2020.
  • [Wu20] Y.-C.Wu, T.Hayashi, T.Okamoto, H.Kawai, T.Toda. Quasi-periodic Parallel WaveGAN vocoder: A non-autoregressive pitch-dependent dilated convolution model for parametric speech generation. Interspeech 2020.
  • [Xiao20] Y.Xiao, L.He, H.Ming, F.K.Soong. Improving prosody with linguistic and BERT derived features in multi-speaker based Mandarin Chinese neural TTS. ICASSP 2020.
  • [Xu20] J.Xu, X.Tan, Y.Ren, T.Qin, J.Li, S.Zhao, T.-Y.Liu. LRSpeech: Extremely low-resource speech synthesis and recognition. ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 2020.
  • [Yamamoto20] R.Yamamoto, E.Song, and J.M.Kim. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. ICASSP 2020. [논문리뷰]
  • [Yang20a] J.Yang, J.Lee, Y.Kim, H.-Y.Cho, I.Kim. VocGAN: A high-fidelity real-time vocoder with a hierarchically-nested adversarial network. Interspeech 2020.
  • [Yang20b] J.Yang, L.He. Towards universal text-to-speech. Interspeech 2020.
  • [Yu20] C.Yu, H.Lu, N.Hu, M.Yu, C.Weng, K.Xu, P.Liu, D.Tuo, S.Kang, G.Lei, D.Su, D.Yu. DurIAN: Duration informed attention network for speech synthesis. Interspeech 2020.
  • [Zhang20a] H.Zhang, Y.Lin. Unsupervised learning for sequence-to-sequence text-to-speech for low-resource languages. Interspeech 2020.
  • [Zhang20b] Z.Zhang, Q.Tian, H.Lu, L.-H.Chen, S.Liu. AdaDurIAN: Few-shot adaptation for neural text-to-speech with durian. arXiv preprint arXiv:2005.05642, 2020.
  • [Zhai20] B.Zhai, T.Gao, F.Xue, D.Rothchild, B.Wu, J.E.Gonzalez, K.Keutzer. SqueezeWave: Extremely lightweight vocoders for on-device speech synthesis. arXiv preprint arXiv:2001.05685, 2020.
  • [Zhao20] S.Zhao, T.H.Nguyen, H.Wang, B.Ma. Towards natural bilingual and code-switched speech synthesis based on mix of monolingual recordings and cross-lingual voice conversion. Interspeech 2020.
  • [Zeng20] Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, and Jing Xiao. AlignTTS: Efficient feed-forward text-to-speech system without explicit alignment. ICASSP 2020.
  • [Zhou20] X.Zhou, X.Tian, G.Lee, R.K.Das, H.Li. End-to-end code-switching TTS with cross-lingual language model. ICASSP 2020.
  • [Achanta21] S.Achanta, A.Antony, L.Golipour, J.Li, T.Raitio, R.Rasipuram, F.Rossi, J.Shi, J.Upadhyay, D.Winarsky, H.Zhang. On-device neural speech synthesis. IEEE Workshop on Automatic Speech Recongnition and Understanding 2021.
  • [Bak21] T.Bak, J.-S.Bae, H.Bae, Y.-I.Kim, H.-Y.Cho. FastPitchFormant: Source-filter based decomposed modeling for speech syntehsis. Interspeech 2021.
  • [Bae21] J.-S.Bae, T.-J.Bak, Y.-S.Joo, H.-Y.Cho. Hierarchical context-aware transformers for non-autoregressive text to speech. Interspeech 2021.
  • [Casanova21] E.Casanova, C.Shulby, E.Gölge, N.M.Müller,F.S.de Oliveira, A.C.Junior, A.d.Soares, S.M.Aluisio, M.A.Ponti. SC-GlowTTS: an efficient zero-shot multi-speaker text-to-speech model. Interspeech 2021.
  • [Chen21a] N.Chen, Y.Zhang, H.Zen, R.J.Weiss, M.Norouzi, W.Chan. WaveGrad: Estimating gradients for waveform generation. ICLR 2021. [논문리뷰]
  • [Chen21b] M.Chen, X.Tan, B.Li, Y.Liu, T.Qin, S.Zhao, T.-Y.Liu. AdaSpeech: Adaptive text to speech for custom voice. ICLR 2021.
  • [Chien21] C.-M.Chien, J.-H.Lin, C.-y.Huang, P.-c.Hsu, H.-y.Lee. Investigating on incorporating pretrained and learnable speaker representations for multi-speaker multi-style text-to-speech. ICASSP 2021.
  • [Christidou21] M.Christidou, A.Vioni, N.Ellinas, G.Vamvoukakis, K.Markopoulos, P.Kakoulidis, J.S.Sung, H.Park, A.Chalamandaris, P.Tsiakoulis. Improved Prosodic Clustering for Multispeaker and Speaker-Independent Phoneme-Level Prosody Control. SPECOM 2021.
  • [Donahue21] J.Donahue, S.Dieleman, M.Binkowski, E.Elsen, K.Simonyan. End-to-end adversarial text-to-speech. ICLR 2021. [논문리뷰]
  • [Du21] Chenpeng Du and Kai Yu. Rich prosody diversity modelling with phone-level mixture density network. Interspeech 2021.
  • [Elias21a] I.Elias, H.Zen, J.Shen, Y.Zhang, Y.Jia, R.Weiss, Y.Wu. Parallel Tacotron: Non-autoregressive and controllable TTS. ICASSP 2021. [논문리뷰]
  • [Elias21b] I.Elias, H.Zen, J.Shen, Y.Zhang, Y.Jia, R.J.Skerry-Ryan, Y.Wu. Parallel Tacotron 2: A non-autoregressive neural tts model with differentiable duration modeling. Interspeech 2021.
  • [Hu21] Q.Hu, T.Bleisch, P.Petkov, T.Raitio, E.Marchi, V.Lakshminarasimhan. Whispered and lombard neural speech synthesis. IEEE Spoken Language Technology Workshop (SLT) 2021.
  • [Huang21] Z.Huang, H.Li, M.Lei. DeviceTTS: A small-footprint, fast, stable network for on-device text-to-speech. ICASSP 2021.
  • [Huybrechts21] G.Huybrechts, T.Merritt, G.Comini, B.Perz, R.Shah, J.Lorenzo-Trueba. Low-resource expressive text-to-speech using data augmentation. ICASSP 2021.
  • [Hwang21a] M.-J.Hwang, R.Yamamoto, E.Song, J.-M.Kim. TTS-by-TTS: Tts-driven data augmentation for fast and high-quality speech synthesis. ICASSP 2021.
  • [Hwang21b] M.-J.Hwang, R.Yamamoto, E.Song, J.-M.Kim. High-fidelity Parallel WaveGAN with multi-band harmonic-plus-noise model. Interspeech 2021.
  • [Jang21] W.Jang, D.Lim, J.Yoon, B.Kim, J.Kim. UnivNet: A neural vocoder with multi-resolution spectrogram discriminators for high-fidelity waveform generation. Interspeech 2021. [논문리뷰]
  • [Jeong21] M.Jeong, H.Kim, S.J.Cheon, B.J.Choi, N.S.Kim. Diff-TTS: A Denoising diffusion model for text-to-speech. Interspeech 2021. [논문리뷰]
  • [Jia21] Y.Jia, H.Zen, J.Shen, Y.Zhang, Y.Wu. PnG BERT: Augmented bert on phonemes and graphemes for neural TTS. arXiv preprint arXiv:2103.15060, 2021.
  • [Kang21] M.Kang, J.Lee, S.Kim, I.Kim. Fast DCTTS: Efficient deep convolutional text-to-speech. ICASSP 2021.
  • [Kim21a] J.Kim, J.Kong, J.Son. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. ICML 2021.
  • [Kim21b] J.-H.Kim, S.-H.Lee, J.-H.Lee, S.-W.Lee. Fre-GAN: Adversarial frequency-consistent audio synthesis. Interspeech 2021.
  • [Kim21c] M.Kim, S.J.Cheon, B.J.Choi, J.J.Kim, N.S.Kim. Expressive text-to-speech using style tag. Interspeech 2021.
  • [Kim21d] H.-Y.Kim, J.-H.Kim, J.-M.Kim. NN-KOG2P: A novel grapheme-to-phoneme model for Korean language. ICASSP 2021.
  • [Kong21] Z.Kong, W.Ping, J.Huang, K.Zhao, B.Catanzaro. DiffWave: A versatile diffusion model for audio synthesis. ICLR 2021. [논문리뷰]
  • [Łancucki21] A.Łancucki. FastPitch: Parallel text-to-speech with pitch prediction. ICASSP 2021.
  • [Lee21a] Y.Lee, J.Shin, K.Jung. Bidirectional variational inference for non-autoregressive text-to-speech. ICLR 2021.
  • [Lee21b] S.-H.Lee, H.-W.Yoon, H.-R.Noh, J.-H. Kim, S.-W.Lee. Multi-SpectroGAN: High-diversity and high-fidelity spectrogram generation with adversarial style combination for speech synthesis. AAAI 2021.
  • [Lee21c] K.Lee, K.Park, D.Kim. Styler: Style modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech. Interspeech 2021.
  • [Li21a] T.Li, S.Yang, L.Xue, L.Xie. Controllable emotion transfer for end-to-end speech synthesis. International Symposium on Chinese Spoken Language Processing (ISCSLP) 2021.
  • [Li21b] X.Li, C.Song, J.Li, Z.Wu, J.Jia, H.Meng. Towards multiscale style control for expressive speech synthesis.  Interspeech, 2021.
  • [Liu21] Y.Liu, Z.Xu, G.Wang, K.Chen, B.Li, X.Tan, J.Li, L.He, S.Zhao. DelightfulTTS: The Microsoft speech synthesis system for Blizzard challenge 2021. arXiv preprint arXiv:2110.12612, 2021.
  • [Luo21] R.Luo, X.Tan, R.Wang, T.Qin, J.Li, S.Zhao, E.Chen, T.-Y.Liu. LightSpeech: Lightweight and fast text to speech with neural architecture search. ICASSP 2021.
  • [Miao21] C.Miao, S.Liang, Z.Liu, M.Chen, J.Ma, S.Wang, J.Xiao. EfficientTTS: An efficient and high-quality text-to-speech architecture. ICML 2021.
  • [Min21] D.Min, D.B.Lee, E.Yang, S.J.Hwang. Meta-StyleSpeech: Multi-speaker adaptive text-to-speech generation. ICML 2021.
  • [Morisson21] M.Morrison, Z.Jin, N.J.Bryan, J.-P.Caceres, B.Pardo. Neural pitch-shifting and time-stretching with controllable LPCNet. arXiv preprint arXiv:2110.02360, 2021.
  • [Nguyen21] H.-K.Nguyen, K.Jeong, S.Um, M.-J.Hwang, E.Song, H.-G.Kang. LiteTTS: A lightweight mel-spectrogram-free text-to-wave synthesizer based on generative adversarial networks. Interspeech 2021.
  • [Pan21] S.Pan, L.He. Cross-speaker style transfer with prosody bottleneck in neural speech synthesis. Interspeech 2021.
  • [Popov21] C.Popov, I.Vovk, V.Gogoryan, T.Sadekova, M.Kudinov. Grad-TTS: A diffusion probabilistic model for text-to-speech. ICML 2021. [논문리뷰]
  • [Ren21a] Y.Ren, C,Hu, X.Tan, T.Qin, S.Zhao, Z.Zhao, T.-Y.Liu. FastSpeech 2: Fast and high-quality end-to-end text to speech. ICLR 2021. [논문리뷰]
  • [Ren21b] Y.Ren, J.Liu, Z.Zhao. PortaSpeech: Portable and high-quality generative text-to-speech. NeurIPS 2021.
  • [Sivaprasad21] S.Sivaprasad, S.Kosgi, V.Gandhi. Emotional prosody control for speech generation. Interspeech 2021.
  • [Song21] E.Song, R.Yamamoto, M.-J.Hwang, J.-S.Kim, O.Kwon, J.- M.Kim. Improved Parallel WaveGAN vocoder with perceptually weighted spectrogram loss. IEEE Spoken Language Technology Workshop (SLT) 2021.
  • [Tan21] X.Tan, T.Qin, F.Soong, T.-Y. Liu. A survey on neural speech synthesis. arXiv: 2106.15561v3.
  • [Wang21] D.Wang, L.Deng, Y.Zhang, N.Zheng, Y.T.Yeung, X.Chen, X.Liu, H.Meng. FCL-Taco2: Towards fast, controllable and lightweight text-to-speech synthesis. ICASSP 2021.
  • [Weiss21] R.J.Weiss, R.J.Skerry-Ryan, E.Battenberg, S.Mariooryad, D.P.Kingma. Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis. ICASSP 2021.
  • [Xu21] G.Xu, W.Song, Z.Zhang, C.Zhang, X.He, B.Zhou. Improving prosody modelling with cross-utterance BERT embeddings for end-to-end speech synthesis. ICASSP 2021.
  • [Yamamoto21] R.Yamamoto, E.Song, M.-J.Hwang, J.-M.Kim. Parallel waveform synthesis based on generative adversarial networks with voicing-aware conditional discriminators. ICASSP 2021.
  • [Yan21a] Y.Yan, X.Tan, B.Li, T.Qin, S.Zhao, Y.Shen, T.-Y.Liu. AdaSpeech 2: Adaptive text to speech with untranscribed data. ICASSP 2021.
  • [Yan21b] Y.Yan, X.Tan, B.Li, G.Zhang, T.Qin, S.Zhao, Y.Shen, W.-Q.Zhang, T.-Y.Liu. AdaSpeech 3: Adaptive text to speech for spontaneous style. Interspeech 2021.
  • [Yang21a] G.Yang, S.Yang, K.Liu, P.Fang, W.Chen, L.Xie. Multi-Band MelGAN: Faster waveform generation for high-quality text-to-speech. IEEE Spoken Language Technology Workshop (SLT) 2021.
  • [Yang21b] J.Yang, J.-S.Bae, T.Bak, Y.Kim, H.-Y.Cho. GANSpeech: Adversarial training for high-fidelity multi-speaker speech synthesis. Interspeech 2021.
  • [Yoneyama21] R.Yoneyama, Y.-C.Wu, T.Toda. Unified source-filter GAN: Unified source-filter network based on factorization of quasi-periodic Parallel WaveGAN. Interspeech 2021.
  • [You21] J.You, D.Kim, G.Nam, G.Hwang, G.Chae. GAN Vocoder: Multi-resolution discriminator is all you need. Interspeech 2021. [논문리뷰].
  • [Yue21] F.Yue, Y.Deng, L.He, T.Ko. Exploring machine speech chain for domain adaptation and few-shot speaker adaptation. arXiv preprint arXiv:2104.03815, 2021.
  • [Zaidi21] J.Zaidi, H.Seute, B.van Niekerk, M.-A.Carbonneau. Daft-Exprt: Cross-speaker prosody transfer on any text for expressive speech synthesis. arXiv preprint arXiv:2108.02271, 2021.
  • [Zhang21a] C.Zhang, X.Tan, Y.Ren, T.Qin, K.Zhang, T.-Y.Liu. UWSpeech: Speech to speech translation for unwritten languages. AAAI 2021.
  • [Zhang21b] G.Zhang, Y.Qin, D.Tan, T.Lee. Applying the information bottleneck principle to prosodic representation learning. arXiv preprint arXiv:2108.02821, 2021.
  • [Zeng21] Z.Zeng, J.Wang, N.Cheng, J.Xiao. LVCNet: Efficient condition-dependent modeling network for waveform generation. ICASSP 2021.
  • [Bae22] J.-S.Bae, J.Yang, T.-J.Bak, Y.-S.Joo. Hierarchical and multi-scale variational autoencoder for diverse and natural non-autoregressive text-to-speech. Interspeech 2022.
  • [Cho22] H.Cho, W.Jung, J.Lee, S.H.Woo. SANE-TTS: Stable and natural end-to-end multilingual text-to-speech. Interspeech 2022.
  • [Comini22] G.Comini, G.Huybrechts, M.S.Ribeiro, A.Gabrys, J.Lorenzo-Trueba. Low-data? No problem: low-resource, language-agnostic conversational text-to-speech via F0-conditioned data augmentation. Interspeech 2022.
  • [Dai22] Z.Dai, J.Yu, Y.Wang, N.Chen, Y.Bian, G.Li, D.Cai, D.Yu. Automatic prosody annotation with pre-trained text-speech model. Interspeech 2022.
  • [Hsu22] P.-C.Hsu, D.-R.Liu, A.T.Liu, H.-y.Lee. Parallel synthesis for autoregressive speech generation. arXiv preprint arXiv:2204.11806, 2022.
  • [Huang22a] R.Huang, M.W.Y.Lam, J.Wang, D.Su, D.Yu, Y.Ren, Z.Zhao. FastDiff: A fast conditional diffusion model for high-quality speech synthesis. International Joint Conference on Artificial Intelligence 2022.
  • [Huang22b] R.Huang, Y.Ren, J.Liu, C.Cui, Z.Zhao. GenerSpeech: Towards style transfer for generalizable out-of-domain TTS synthesis. arXiv preprint arXiv:2205.07211, 2022.
  • [Kharitonov22] E.Kharitonov, A.Lee, A.Polyak, Y.Adi, J.Copet, K.Lakhotia, T.-A.Nguyen, M.Riviere, A.Mohamed, E.Dupoux, W.-N.Hsu. Text-free prosody-aware generative spoken language modeling. Annual Meeting of the Association for Computational Linguistics (ACL) 2022.
  • [Kim22a] H.Kim, S.Kim, S.Yoon. Guided-TTS: A diffusion model for text-to-speech via classifier guidance. ICML 2022.
  • [Kim22b] S.Kim, H.Kim, S.Yoon. Guided-TTS 2: A diffusion model for high-quality adaptive text-to-speech with untranscribed data. arXiv preprint arXiv:2205.15370, 2022.
  • [Koch22] J.Koch, F.Lux, N.Schauffler, T.Bernhart, F.Dieterle, J.Kuhn, S.Richter, G.Viehhauser, N.T.Vu. PoeticTTS: Controllable poetry reading for literary studies. Interspeech 2022.
  • [Lam22] M.W.Y.Lam, J.Wang, D.Su, D.Yu. BDDM: Bilateral denoising diffusion models for fast and high-quality speech synthesis. ICLR 2022.
  • [Lee22a] S.-G.Lee, H.Kim, C.Shin, X.Tan, C.Liu, Q.Meng, T.Qin, W.Chen, S.Yoon, T.-Y.Liu. PriorGrad: Improving conditional denoising diffusion models with data-driven adaptive prior. ICLR 2022.
  • [Lee22b] S.-G.Lee, W.Ping, B.Ginsburg, B.Catanzaro, S.Yoon. BigVGAN: A universal neural vocoder with large-scale training. arXiv preprint arXiv:2206.04658, 2022.
  • [Lei22] Y.Lei, S.Yang, X.Wang, MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis. IEEE/ACM Transactions on Audio, Speech and Language Process Vol.30, 2022.
  • [Li22a] Y.A.Li, C.Han, N.Mesgarani. StyleTTS: A style-based generative model for natural and diverse text-to-speech synthesis. arXiv preprint arXiv:2205.15439, 2022.
  • [Li22b] T.Li, X.Wang, Q.Xie, Z.Wang, M.Jiang, L.Xie. Cross-speaker emotion transfer based on prosody compensation for end-to-end speech synthesis. arXiv preprint arXiv:2207.01198, 2022.
  • [Li22c] X.Li, C.Song, X.Wei, Z.Wu, J.Jia, H.Meng. Towards cross-speaker reading style transfer on audiobook dataset. Interspeech 2022.
  • [Lian22] J.Lian, C.Zhang ,G.K.Anumanchipalli, D.Yu. UTTS: Unsupervised TTS with conditional disentangled sequential variational auto-encoder. arXiv preprint arXiv:2206.02512, 2022.
  • [Lim22] D.Lim, S.Jung, E.Kim. JETS: Jointly training FastSpeech2 and HiFi-GAN for end-to-end text-to-speech. Interspeech 2022.
  • [Liu22a] S.Liu, D.Su, D.Yu. DiffGAN-TTS: High-fidelity and efficient text-to-speech with denoising diffusion GANs. arXiv preprint arXiv:2201.11972, 2022.
  • [Liu22b] Y.Liu, R.Xue, L.He, X.Tan, S.Zhao. DelightfulTTS 2: End-to-end speech synthesis with adversarial vector-quantized auto-encoders. Interspeech 2022.
  • [Lu22] Z.Lu, M.He, R.Zhang, C.Gong. A post auto-regressive GAN vocoder focused on spectrum fracture. arXiv preprint arXiv:2204.06086, 2022.
  • [Lux22] F.Lux, J.Koch, N.T.Vu. Prosody cloning in zero-shot multispeaker text-to-speech. arXiv preprint arXiv:2206.12229, 2022.
  • [Mehta22] S.Mehta, E.Szekely, J.Beskow, G.E.Henter. Neural HMMs are all you need (for high-quality attention-free TTS). ICASSP 2022.
  • [Mitsui22] K.Mitsui, T.Zhao, K.Sawada, Y.Hono, Y.Nankaku, K.Tokuda. End-to-end text-to-speech based on latent representation of speaking styles using spontaneous dialogue. Interspeech 2022.
  • [Morrison22] M.Morrison, R.Kumar, K.Kumar, P.Seetharaman, A.Courville, Y.Bengio. Chunked autoregressive GAN for conditional waveform synthesis. ICLR 2022.
  • [Nishimura22] Y.Nishimura, Y.Saito, S.Takamichi, K.Tachibana, H.Saruwatari. Acoustic modeling for end-to-end empathetic dialogue speech synthesis using linguistic and prosodic contexts of dialogue history. Interspeech 2022.
  • [Raitio22] T.Raitio, J.Li, S.Seshadri. Hierarchical prosody modeling and control in non-autoregressive parallel neural TTS. ICASSP 2022.
  • [Ren22] Y.Ren, M.Lei, Z.Huang, S.Zhang, Q.Chen, Z.Yan, Z.Zhao. ProsoSpeech: Enhancing prosody with quantized vector pre-training in TTS. ICASSP 2022.
  • [Ribeiro22] M.S.Ribeiro, J.Roth, G.Comini, G.Huybrechts, A.Gabrys, J.Lorenzo-Trueba. Cross-speaker style transfer for text-to-speech using data augmentation. ICASSP 2022.
  • [Saeki22] T.Saeki, K.Tachibana, R.Yamamoto. DRSpeech: Degradation-robust text-to-speech synthesis with frame-level and utterance-level acoustic representation learning. Interspeech 2022.
  • [Shin22] Y.Shin, Y.Lee, S.Jo, Y.Hwang, T.Kim. Text-driven emotional style control and cross-speaker style transfer in neural TTS. Interspeech 2022.
  • [Song22] E.Song, R.Yamamoto, O.Kwon, C.-H.Song, M.-J.Hwang, S.Oh, H.-W.Yoon, J.-S.Kim, J.-M.Kim. TTS-by-TTS 2: Data-selective augmentation for neural speech synthesis using ranking Support Vector Machine with variational autoencoder. Interspeech 2022.
  • [Tan22] X.Tan, J.Chen, H.Liu, J.Cong, C.Zhang, Y.Liu, X.Wang, Y.Leng, Y.Yi, L.He, F.Soong, T.Qin, S.Zhao, T.-Y.Liu. NaturalSpeech: End-to-end text to speech synthesis with human-level quality. arXiv preprint arXiv:2205.04421, 2022.
  • [Terashima22] R.Terashima, R.Yamamoto, E.Song, Y.Shirahata, H.-W.Yoon, J.-M.Kim, K.Tachibana. Cross-speaker emotion transfer for low-resource text-to-speech using non-parallel voice conversion with pitch-shift data augmentation. Interspeech 2022.
  • [Valin22] J.-M.Valin, U.Isik, P.Smaragdis, A.Krishnaswamy. Neural speech synthesis on a shoestring: Improving the efficiency of LPCNET. ICASSP 2022.
  • [Wang22] Y.Wang, Y.Xie, K.Zhao, H.Wang, Q.Zhang. Unsupervised quantized prosody representation for controllable speech synthesis. IEEE International Conference on Multimedia and Expo (ICME) 2022.
  • [Wu22a] Y.Wu, X.Tan, B.Li, L.He, S.Zhao, R.Song, T.Qin, T.-Y.Liu. AdaSpeech 4: Adaptive text to speech in zero-shot scenarios. arXiv preprint arXiv:2204.00436, 2022.
  • [Wu22b] S.Wu, Z.Shi. ItoWave: Ito stochastic differential equation is all you need for wave generation. ICASSP 2022.
  • [Xie22] Q.Xie, T.Li, X.Wang, Z.Wang, L.Xie, G.Yu, G.Wan. Multi-speaker multi-style text-to-speech synthesis with single-speaker single-style training data scenarios. ICASSP 2022.
  • [Yang22] J.Yang, L.He. Cross-lingual TTS using multi-task learning and speaker classifier joint training. arXiv preprint arXiv:2201.08124, 2022.
  • [Ye22] Z.Ye, Z.Zhao, Y.Ren, F.Wu. SyntaSpeech: Syntax-aware generative adversarial text-to-speech. International Joint Conference on Artificial Intelligence 2022.
  • [Yoon22] H.-W.Yoon, O.Kwon, H.Lee, R.Yamamoto, E.Song, J.-M.Kim, M.-J.Hwang. Language model-based emotion prediction methods for emotional speech synthesis systems. Interspeech 2022.
  • [Zhang22] G.Zhang, Y.Qin, W.Zhang, J.Wu, M.Li, Y.Gai, F.Jiang, T.Lee. iEmoTTS: Toward robust cross-speaker emotion transfer and control for speech synthesis based on disentanglement between prosody and timbre. arXiv preprint arXiv:2206.14866, 2022.