본문 바로가기

audio

(39)
[논문리뷰] WaveGrad: Estimating Gradients for Waveform Generation (ICLR21) 제목: WAVEGRAD: Estimating Gradients for Waveform Generation 저자: Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, William Chan 소속: Johns Hopkins University, Google Research, Brain Team 발표: ICLR 2021 논문 및 웹페이지: https://wavegrad.github.io/ - 요즘 이동네에서 핫한 생성 기술 score matching & diffusion probabilistic models을 바탕으로 audio를 만들어냄. - [Ho20]에서 제안한 discrete refinement step index로도 만들어보고 노이즈레..
[논문리뷰] Sequence-to-Sequence Piano Transcription with Transformers (ISMIR21) 논문제목: Sequence-to-Sequence Piano Transcription with Transformers 저자: Curtis Hawthorne, Ian Simon, Rigel Swavely, Ethan Manilow, Jesse Engel 소속: Google Research 발표: ISMIR 2021 논문: https://arxiv.org/abs/2107.09142 웹페이지: https://magenta.tensorflow.org/transcription-with-transformers - music transcription이 최근에 잘되고 있긴 하지만, 여전히 이 문제를 풀려면 음악적인 정보를 사용하여 네트워크를 디자인하고 representation을 만들고 디코딩에도 신경을 써야함. 근데 ..
[논문리뷰] Polyphonic Piano Transcription using Autoregressive Multi-State Note Model (ISMIR20) 제목: Polyphonic Piano Transcription using Autoregressive Multi-State Note Model 저자: Taegyun Kwon, Dasaem Jeong, Juhan Nam 소속: Graduate School of Culture Technology, KAIST 발표: ISMIR 2020 논문: https://archives.ismir.net/ismir2020/paper/000341.pdf 웹페이지: https://taegyunkwon.github.io/ar_multi_transcription/ - 최근 Piano Transcription이 잘되고 있긴 한데, 네트워크도 여러개쓰고 로스도 여러개 써야하고 점점 복잡해지는 것 같음. note state를 고려한 모델..
[논문리뷰] Adversarial Learning for Improved Onsets and Frames Music Transcription (ISMIR19) 논문제목: Adversarial Learning for Improved Onsets and Frames Music Transcription 저자: Jong Wook Kim, Juan Pablo Bello 소속: Music and Audio Research Lab, New York University 발표: ISMIR 2019 논문: https://archives.ismir.net/ismir2019/paper/000081.pdf - 많은 NN모델에서 로스를 구할 때 보통은 각 데이터별로 element-wise하게 차이를 구함. 하지만 사실 이렇게 하면 각 레이블들은 인풋에 대해서 서로 conditionally independent하다고 가정을 하는 것임. 즉 레이블간의 관계는 고려하지 않는 것. 이를 해결..
[논문리뷰] Enabling Factorized Piano Music Modeling and Generation with the Maestro Dataset (ICLR19) 제목: Enabling Factorized Piano Music Modeling and Generation with the Maestro Dataset 저자: Curtis Hawthorne, Andriy Stasyuk, Adam Roberts, Ian Simon, Cheng-Zhi Anna Huang, Sander Dieleman, Erich Elsen, Jesse Engel, Douglas Eck 소속: Google Brain, DeepMind 발표: ICLR 2019 논문: https://arxiv.org/abs/1810.12247 블로그: https://magenta.tensorflow.org/maestro-wave2midi2wave (maestro) 추가결과: https://storage.goog..
[논문리뷰] Onsets and Frames: Dual-Objective Piano Transcription (ISMIR18) 논문제목: Onsets and Frames: Dual-Objective Piano Transcription 저자: Curtis Hawthorne, Erich Elsen, Jialin Song, Adam Roberts, Ian Simon, Colin Raffel, Jesse Engel, Sageev Oore, Douglas Eck 소속: Google Brain 발표: ISMIR 2018 논문: http://ismir2018.ircam.fr/doc/pdfs/19_Paper.pdf 웹페이지: https://magenta.tensorflow.org/onsets-frames 코드: https://github.com/magenta/magenta/tree/main/magenta/models/onsets_frames_..
[논문리뷰] WaveNet: A Generative Model for Raw Audio (arxiv16) 논문제목: WaveNet: A Generative Model for Raw Audio 저자: Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu 소속: Google DeepMind, Google 논문: https://arxiv.org/abs/1609.03499 웹페이지: https://www.deepmind.com/blog/wavenet-a-generative-model-for-raw-audio - 딥마인드 van den Oord가 PixelRNN[Oord16a]과 PixelCNN[Oord16b] 만들고..