본문 바로가기

audio/audio generation (tts)

[논문리뷰] Char2Wav: End-to-End Speech Synthesis (ICLR17 Workshop)

논문제목: Char2Wav: End-to-End Speech Synthesis

저자: Jose Sotelo, Soroush Mehri, Kundan Kumar, Joao Felipe Santos, Kyle Kastner, Aaron Courville, Yoshua Bengio
소속: Universite de Montreal, IIT Kanpur, INRS-EMT
발표: ICLR 2017 Workshop

코드: https://github.com/sotelo/parrot

오디오샘플: http://josesotelo.com/speechsynthesis/

 

- 이때 당시까지 찾아보기 힘들었던 End-to-end speech synthesis 시스템을 제안한 논문
- 전체적인 시스템은 어텐션+RNN을 사용한 인코더-디코더 모델. 여기에 SampleRNN 보코더를 달아 함께 학습시킴으로써 text를 통해 오디오를 한번에 생성하는 시스템

 

Story

일반적으로 TTS시스템은 먼저 텍스트를 linguistic feature로 바꾸는 단계와 이를 이용하여 오디오를 생성하는 단계로 나뉨. 그런데 이걸 그냥 한번에 할 수는 없을까? 그러면 linguistic feature를 어떻게 만들어야할지 고민할 필요도 없고 좋을 것 같음.

 

그런데 사실은 RNN연구를 하고 있던 Alex Graves가 몬트리올 대학에서 자신이 만든 어텐션을 이용한 스피치합성 모델을 데모한적이 있었음. 그가 만든 handwriting generation을 확장한 모델이었는데 그 데모를 보고 영감을 받아 이 연구를 하게 됨. 안타깝게도 그가 만든 모델은 정식으로 퍼블리쉬된적이 없어서 직접 비교는 못하지만, 그래도 이 연구가 end-to-end speech synthesis의 시작점이 되었으면 좋겠다고 얘기함.

 

Model Description

모델은 크게  Reader와 Neural Vocoder로 구성되어 있음.

 

Reader

먼저 Reader는 encoder-decoder로 되어 있음. 먼저 encoder는 text나 phoneme을 입력으로 받는 bidirectional rnn으로 구성됨. 입력 시퀀스 $X$(text / phoneme)는 인코더를 통과하여 $h$ 시퀀스로 변경됨. 그 다음 h에서 어텐션 웨이트 알파가 구해지고 이를 이용하여 $y$(vocoder acoustic feature)가 생성됨. 여기서 $s$는 generator rnn의 state를 의미함

 

여기서는 [Graves13]에서 제안한 location-based 어텐션 매커니즘을 사용함. 

여기에서 카파는 location,  베타는 윈도우의 width, 로우는 윈도우의 importance를 의미함.

 

Neural Vocoder

스피치 퀄리티에 보코더가 엄청 중요함. 여기서는 보코더를 학습가능한 parametric neural module로 만들어 사용하겠음. 이를 위해  SampleRNN[Mehri17] 을 사용함. 원래 모델에는 조건을 넣는 부분이 없었는데 이를 확장하여 conditional 버전으로 만듬. 즉 각 보코더 피쳐들은 SampleRNN모델의 탑티어에 extra bias로 더해지게 됨. 

 

Results

워크샵 논문이기 때문에 제대로된 비교는 하지 않지만 오디오 샘플들 이미지와 텍스트와 잘 얼라인된 이미지를 보여줌.

앞에 두 개는 VCTK 데이터셋으로 마지막 스페인어 데이터는 DIMEX-100 데이터셋으로 훈련함.

 

짧은 워크샵 논문이지만 이 당시에 end-to-end TTS 시스템을 제안한 것에 의미가 있음 

 

  • [Graves13] Alex Graves. Generating sequences with recurrent neural networks. 2013. URL https: //arxiv.org/abs/1308.0850.
  • [Mehri17] S.Mehri, K.Kumar, I.Gulrajani, R.Kumar, S.Jain, J.Sotelo, A.Courville, Y.Bengio. SampleRNN: An unconditional end-to-end neural audio generation model. ICLR 2017. [논문리뷰]