Awesome Music Generation Papers 🎵

Curated list of groundbreaking music generation research.

Text-to-Music Generation 📄➡🎸

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [2025] [Alibaba] [Paper] [Code] [Demo]
FluxMusic FLUX that Plays Music [2024] [Skywork] [Paper] [Code]
MusicGen Simple and Controllable Music Generation [2024] [Meta] [Paper] [Code]
MusicLM: Generating Music From Text [2023] [Google] [Paper]

Lyrics-to-Song Generation 📜➡🎶

LeVo: High-Quality Song Generation with Multi-Preference Alignment [2025] [Tencent] [Paper] [GitHub] [Demo]
SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement [2025] [CUHK-Shenzhen] [Paper] [Demo] [GitHub]
ACE-Step: A Step Towards Music Generation Foundation Model [2025] [GitHub]
YuE: Scaling Open Foundation Models for Long-Form Music Generation [2025] [m-a-p] [Paper] [Code] [Demo ]
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion [2025] [ASLP-lab] [Paper] [Code] [Demo] [HuggingFace]
SongCreator: Lyrics-based Universal Song Generation [Paper] [Demo]
SongEditor: Adapting Zero-Shot Song Generation Language Model as a Multi-Task Editor [Paper] [Demo]

Controllable Music Generation ⚙️

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners [2025] [Paper]
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer [2024] [ICASSP] [Paper]
Music ControlNet: Multiple Time-Varying Controls for Music Generation [2024] [Demo]
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [2024] [Paper]
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [2024] [Demo]

Singing Accompaniment Generation (SAG) 🎤➡🎸

FastSAG: towards fast non-autoregressive singing accompaniment generation [2024] [Paper] [Code]
SingSong: Generating musical accompaniments from singing [2023] [Google] [Paper]

Lyrics-to-Melody Generation (L2M) 📜➡🎼

CSL-L2M: Controllable Song-Level Lyric-to-Melody Generation Based on Conditional Transformer with Fine-Grained Lyric and Musical Controls [2025] [AAAI] [Paper] [Code] [Demo]
SongComposer: A large language model for lyric and melody composition in song generation [2024] [Paper] [GitHub]

Text-to-Symbolic Music Generation 📄➡🎼

NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms [2025] [Tsinghua] [Paper] [Code] [Demo ]
Mupt: A generative symbolic music pretrained transformer [2024] [m-a-p] [Paper] [Demo]

Music SSL & Encoder & Codec 🎶➡🔢

MuQ: Self-supervised music representation learning with mel residual vector quantization [2025] [Tencent] [Code]
MusicFM A foundation model for music informatics [2024] [Paper] [Code]
MERT: Acoustic music understanding model with large-scale self-supervised training [2023] [m-a-p] [Paper] [GitHub]

Music Transcription 🎶➡🎼

YourMT3+: Multi-Instrument Music Transcription with Enhanced Transformer Architectures and Cross-Dataset STEM Augmentation [2024] [Paper] [GitHub]
Perceiver TF Multitrack music transcription with a time-frequency perceiver [2023] [ByteDance] [ICASSP] [Paper]
MT3: Multi-task multitrack music transcription [2021] [Paper]

Music Source Separation 🎶➡🎹🎸🥁

SCNet: Sparse compression network for music source separation [2025] [ICASSP] [Paper]
Music source separation with band-split rope transformer [2024] [ICASSP] [Paper]
Music source separation with band-split RNN [2023] [TASLP] [Paper]

Music Evaluation Metrics 📏

SongEval: A Benchmark Dataset for Song Aesthetics Evaluation [2025] [ASLP-lab] [Paper] [GitHub] [Dataset]
MusicEval: A Generative Music Corpus with Expert Ratings for Automatic Text-to-Music Evaluation [2025] [AISHELL] [Paper] [Dataset]
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation [2024] [Paper] [GitHub]

Dataset & Benchmark 📊

Marble: Music audio representation benchmark for universal evaluation [2023] [m-a-p] [Paper] [GitHub]
FMA: A Dataset For Music Analysis [GitHub] [100K tracks]

Website & Products 🌐

Lamucal - Real-time audio to chords, lyrics, beat, and melody with Hybrid-Net [Web] [GitHub]
Dango.ai - Any instruments separation and vocals extraction [Web]

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitattributes		.gitattributes
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Awesome Music Generation Papers 🎵

Text-to-Music Generation 📄➡🎸

Lyrics-to-Song Generation 📜➡🎶

Controllable Music Generation ⚙️

Singing Accompaniment Generation (SAG) 🎤➡🎸

Lyrics-to-Melody Generation (L2M) 📜➡🎼

Text-to-Symbolic Music Generation 📄➡🎼

Music SSL & Encoder & Codec 🎶➡🔢

Music Transcription 🎶➡🎼

Music Source Separation 🎶➡🎹🎸🥁

Music Evaluation Metrics 📏

Dataset & Benchmark 📊

Website & Products 🌐

About

Uh oh!

Releases

Packages

juhayna-zh/Awesome-Music-Generation-Papers

Folders and files

Latest commit

History

Repository files navigation

Awesome Music Generation Papers 🎵

Text-to-Music Generation 📄➡🎸

Lyrics-to-Song Generation 📜➡🎶

Controllable Music Generation ⚙️

Singing Accompaniment Generation (SAG) 🎤➡🎸

Lyrics-to-Melody Generation (L2M) 📜➡🎼

Text-to-Symbolic Music Generation 📄➡🎼

Music SSL & Encoder & Codec 🎶➡🔢

Music Transcription 🎶➡🎼

Music Source Separation 🎶➡🎹🎸🥁

Music Evaluation Metrics 📏

Dataset & Benchmark 📊

Website & Products 🌐

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages