본문 바로가기

전체 글

(41)
[논문리뷰] DiffWave: A Versatile Diffusion Model for Audio Synthesis (ICLR21) 제목: DIFFWAVE: A Versatile Diffusion Model for Audio Synthesis 저자: Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro 소속: UCSD, NVIDIA, Baidu Research 발표: ICLR 2021 논문: https://arxiv.org/abs/2009.09761 웹페이지: https://diffwave-demo.github.io/ - Diffusion model을 이용하여 오디오를 생성하는 논문. ICLR21에 [Chen21]과 동시에 발표되었음. 두 논문 모두 비슷한 방법론을 사용하지만 소소한 차이점이 있어서 비교하면서 읽으면 재미있음. - 이 논문은 오디오 생성에 WaveNet[O..
[논문리뷰] WaveGrad: Estimating Gradients for Waveform Generation (ICLR21) 제목: WAVEGRAD: Estimating Gradients for Waveform Generation 저자: Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, William Chan 소속: Johns Hopkins University, Google Research, Brain Team 발표: ICLR 2021 논문 및 웹페이지: https://wavegrad.github.io/ - 요즘 이동네에서 핫한 생성 기술 score matching & diffusion probabilistic models을 바탕으로 audio를 만들어냄. - [Ho20]에서 제안한 discrete refinement step index로도 만들어보고 노이즈레..
[논문리뷰] Sequence-to-Sequence Piano Transcription with Transformers (ISMIR21) 논문제목: Sequence-to-Sequence Piano Transcription with Transformers 저자: Curtis Hawthorne, Ian Simon, Rigel Swavely, Ethan Manilow, Jesse Engel 소속: Google Research 발표: ISMIR 2021 논문: https://arxiv.org/abs/2107.09142 웹페이지: https://magenta.tensorflow.org/transcription-with-transformers - music transcription이 최근에 잘되고 있긴 하지만, 여전히 이 문제를 풀려면 음악적인 정보를 사용하여 네트워크를 디자인하고 representation을 만들고 디코딩에도 신경을 써야함. 근데 ..
[논문리뷰] Polyphonic Piano Transcription using Autoregressive Multi-State Note Model (ISMIR20) 제목: Polyphonic Piano Transcription using Autoregressive Multi-State Note Model 저자: Taegyun Kwon, Dasaem Jeong, Juhan Nam 소속: Graduate School of Culture Technology, KAIST 발표: ISMIR 2020 논문: https://archives.ismir.net/ismir2020/paper/000341.pdf 웹페이지: https://taegyunkwon.github.io/ar_multi_transcription/ - 최근 Piano Transcription이 잘되고 있긴 한데, 네트워크도 여러개쓰고 로스도 여러개 써야하고 점점 복잡해지는 것 같음. note state를 고려한 모델..
[논문리뷰] Adversarial Learning for Improved Onsets and Frames Music Transcription (ISMIR19) 논문제목: Adversarial Learning for Improved Onsets and Frames Music Transcription 저자: Jong Wook Kim, Juan Pablo Bello 소속: Music and Audio Research Lab, New York University 발표: ISMIR 2019 논문: https://archives.ismir.net/ismir2019/paper/000081.pdf - 많은 NN모델에서 로스를 구할 때 보통은 각 데이터별로 element-wise하게 차이를 구함. 하지만 사실 이렇게 하면 각 레이블들은 인풋에 대해서 서로 conditionally independent하다고 가정을 하는 것임. 즉 레이블간의 관계는 고려하지 않는 것. 이를 해결..
[논문리뷰] Enabling Factorized Piano Music Modeling and Generation with the Maestro Dataset (ICLR19) 제목: Enabling Factorized Piano Music Modeling and Generation with the Maestro Dataset 저자: Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng-Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, Douglas Eck 소속: Google Brain, DeepMind 발표: ICLR 2019 논문: https://arxiv.org/abs/1810.12247 블로그: https://magenta.tensorflow.org/maestro-wave2midi2wave (maestro) 추가결과: https://storage.goog..
[논문리뷰] Onsets and Frames: Dual-Objective Piano Transcription (ISMIR18) 논문제목: Onsets and Frames: Dual-Objective Piano Transcription 저자: Curtis Hawthorne, Erich Elsen, Jialin Song, Adam Roberts, Ian Simon, Colin Raffel, Jesse Engel, Sageev Oore, Douglas Eck 소속: Google Brain 발표: ISMIR 2018 논문: http://ismir2018.ircam.fr/doc/pdfs/19_Paper.pdf 웹페이지: https://magenta.tensorflow.org/onsets-frames 코드: https://github.com/magenta/magenta/tree/main/magenta/models/onsets_frames_..
[논문리뷰] Music Transformer: Generating Music with Long-Term Structure (ICLR19) 논문제목: Music Transformer: Generating Music with Long-Term Structure 저자: Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Ian Simon, Curtis Hawthorne, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, Douglas Eck 소속: Google Brain 발표: ICLR 19 논문: https://arxiv.org/abs/1809.04281 블로그: https://magenta.tensorflow.org/music-transformer supplement: https://storage.googleapis.com/..