본문 바로가기

introduction

(1)

[논문들소개] Neural Text-to-Speech(TTS) Text-to-Speech(보통 TTS라고 줄여서 씀)는 텍스트를 오디오로 읽어주는 기술을 말함. 즉 입력으로 텍스트 혹은 캐릭터와 비스무리한게 들어오면 출력으로 웨이브폼 오디오가 생성되는 모델을 말함. 조금만 둘러봐도 여기저기에서 벌써 많이 사용되는 기술이라는 사실을 알 수 있음. 핸드폰에도 들어있고 웹브라우저에도 있고, 심지어 아파트 경비실 아저씨도 사용하실 수 있는 기술임. 그런데 사실 요 근래 몇 년사이에 이 TTS의 오디오 퀄리티가 상당히 높아졌음. 이제 별로 어색하지 않음. 우리 초딩 아들은 아직도 경비실에서 어떤 이모가 실제로 방송하는 줄 알음. 이는 모두 알다싶이 소위 DL(딥러닝)이라고 부르는 기술의 발전 덕분임. 그래서 여기에서는 TTS의 발전에 있어서 Neural Network이 적용..

이전 1 다음

티스토리툴바