Künstliche Intelligenz verändert die Musikproduktion grundlegend. Mit Tools wie SongBloom von Tencent AI Lab (https://github.com/tencent-ailab/SongBloom) können wir komplexe Songs in voller Länge generieren. Das größte Hindernis für viele Anwender ist jedoch das extreme Format, das diese Modelle für die Liedtexte benötigen.
Wir haben einen AI Assistant entwickelt, der diese Hürde elegant überwindet, indem er die Kreativität lokaler LLMs (über Ollama) mit der Präzision von SongBloom kombiniert.
🎵 Was ist der SongBloom AI Assistant?
Der SongBloom AI Assistant (Codebasis hier: https://github.com/custom-build-robots/SongBloom-AI-Assistant-with-OLLAMA) ist eine auf Gradio basierende Web-Anwendung, die einen nahtlosen Workflow für die KI-Musikproduktion bietet:
- Ideengenerierung: Sie beschreiben Ihre Song-Idee (Genre, Stimmung, Thema) in natürlicher Sprache.
- Formatierung: Ein lokales Ollama-Modell Ihrer Wahl (z.B.
gpt-oss:20b) generiert die Texte automatisch im hochspezialisierten SongBloom Token-Format ([intro] [inst] [verse]...). - Audio-Generierung: Der bereinigte Text wird zusammen mit einem von Ihnen hochgeladenen Style-Prompt (eine 10-sekündige Audio-Datei) direkt an das
infer.py-Skript von SongBloom gesendet, um die finale Musik zu erzeugen.
⚙️ Die Technologie unter der Haube
Unser Assistent nutzt eine robuste Architektur, um maximale Kontrolle und Transparenz zu gewährleisten:
- Frontend: Gradio liefert eine einfache, interaktive Oberfläche.
- Kreativität: Ollama ermöglicht die Nutzung leistungsstarker, lokaler LLMs, um die Songtexte zu verfassen und sie in das korrekte, maschinenlesbare Format zu zwingen.
- Audio-Engine: Das SongBloom-Framework übernimmt die eigentliche Diffusion und Generierung des Songs.
- Medien-Tools: FFMPEG wird systemweit genutzt, um hochgeladene MP3s/FLACs automatisch in das von SongBloom benötigte 48kHz WAV-Format zu konvertieren und die finalen FLAC-Outputs wahlweise in WAV oder MP3 umzuwandeln.
🚀 Installation unter Ubuntu
Die Einrichtung des Workflows wurde durch ein dediziertes Bash-Installationsskript stark vereinfacht.
1. Systemvoraussetzungen
Bevor Sie das Installationsskript ausführen, stellen Sie sicher, dass FFMPEG auf Ihrem Ubuntu-System verfügbar ist, da es für die gesamte Audio-Konvertierung unerlässlich ist:
sudo apt update && sudo apt install -y ffmpeg
2. Nutzung des Installationsskripts
Das von uns bereitgestellte Installationsskript klont das SongBloom-Repository, erstellt eine isolierte Python-3.8-Umgebung und installiert alle notwendigen Python-Abhängigkeiten (PyTorch, Gradio, pydub, etc.):
# Pfad anpassen, falls nötig
cd ~/scripts
./install_songbloom_web.sh
Nach der Installation finden Sie die Anwendung write_me_a_song.py im Verzeichnis ~/SongBloom.
📝 Schritt-für-Schritt-Anleitung zur Bedienung
Die Oberfläche des Assistenten ist in zwei Hauptbereiche unterteilt: Text-Generierung und Audio-Generierung.
Schritt 1: Lyrics generieren
- Ollama-Konfiguration: Prüfen Sie die Ollama Server URL und wählen Sie Ihr bevorzugtes LLM (Standard ist
gpt-oss:20b). - Eingabe: Geben Sie im Feld „Your Song Idea“ so detailliert wie möglich Genre, Thema und Stimmung vor.
- Generierung starten: Klicken Sie auf „🚀 Generate Lyrics“.
Nach wenigen Sekunden sehen Sie zwei Ergebnisse unter „Generated Lyrics“:
- 1. Full LLM Output (Debug): Zeigt die gesamte rohe Antwort des LLM, inklusive seiner internen Formatierungsgedanken.
- 2. Clean SongBloom Text (Editable): Dieses bereinigte Feld enthält nur die SongBloom-Tokens. WICHTIG: Sie können diesen Text manuell bearbeiten und korrigieren, bevor Sie zur Audio-Generierung übergehen.
Schritt 2: Audio erzeugen und archivieren
- Style Prompt hochladen: Laden Sie unter „Style Prompt Audio“ eine 10-sekündige WAV-, MP3- oder FLAC-Datei hoch, die die gewünschte musikalische Richtung vorgibt. Die App passt die Länge automatisch an.
- Ausgabeformat wählen: Wählen Sie unter „Output Format“ das gewünschte Endformat (FLAC, WAV oder MP3).
- Generierung starten: Klicken Sie auf „▶️ Generate Audio“.
Nach erfolgreicher Generierung wird Ihr Song direkt im Player unter „🎧 Your Song (Audio)“ abgespielt.
💾 Archivierung
Alle erstellten Dateien (der saubere Songtext, die JSONL-Eingabedatei, die vorverarbeitete Prompt-WAV-Datei und der fertige Song) werden dauerhaft in folgendem Verzeichnis gespeichert:
~/SongBloom/generated_songs_archive/
So können Sie Ihre Kreationen jederzeit nachvollziehen und wiederverwenden.
▶️Beispiel Promt
„Write a song about a small robot-truck which loves his colorful chassis and power to drive around in the snow during x-maz suprising kids. The song should follow the lyris from imagine from John Lennon.“
🚀 Generierter Prompt von gpt-oss:20b
[intro] [intro] [intro] [intro] [intro] ,
[verse] I think of a tiny truck with chrome shining bright. Its wheels spin in a line of color that gleams. It loves to glide through snow so fine. ,
[chorus] And in that bright world the truck is a dream. In a line its power makes everything gleam. It will drive across the snow. ,
[verse] The truck rolls along the snow with bright lines. It lights up the winter path like a shining sign. It keeps the kids laughing in a winter design. ,
[chorus] The truck keeps moving through the winter cold. Its bright chassis shines like a story told. The kids feel the thrill of a bright bright bold. ,
[verse] The truck hums with a happy sound. The snow around it shimmers with a bright round. It stays strong while the wind is profound. ,
[chorus] The truck moves through the winter bright. Its colorful chassis shines like a bright light. The kids cheer while the truck takes flight. ,
[verse] The truck's journey brings a sparkle in the snow. Its bright hull glows like a glowing show. The children sing as the wheels roll with a bright glow. ,
[chorus] The truck keeps the world bright with a gentle sound. Its colorful lines shine where the winter hounds. Kids cheer as the truck goes around and around. ,
[verse] The truck moves ahead like a bright star. Its chassis glows in the winter night afar. The kids shout as it goes with a bright guitar. ,
[chorus] The truck's lights shine like a winter star. Its colorful chassis glows like a bright star. Kids jump as it rolls across the snowy yard. ,
[inst] [inst] [inst] ,
[outro] [outro] [outro] [outro] [outro]
💡 Zusammenfassung des Projekts
Der SongBloom AI Assistant überbrückt die kritische Lücke zwischen menschlicher Kreativität und dem komplexen Eingabeformat von KI-Musikgeneratoren wie SongBloom.
- Die Herausforderung: SongBloom benötigt hochspezialisierte, tokenisierte Songtexte.
- Die Lösung: Eine Gradio-Web-Anwendung nutzt lokale LLMs (über Ollama), um intuitive, natürlichsprachliche Songideen automatisch in das korrekte, maschinenlesbare Token-Format zu übersetzen.
- Der Workflow: Benutzer geben eine Idee ein $\rightarrow$ Ollama formatiert die Lyrics $\rightarrow$ SongBloom generiert das Audio.
- Die Technologie: Robuste Architektur mit Gradio (Frontend), Ollama (Kreativität/Formatierung) und FFMPEG (Audio-Konvertierung), optimiert für eine einfache Ubuntu-Installation per Bash-Skript.
Dieses Tool optimiert den Workflow und stellt sicher, dass die Datenqualität der Texte (im Sinne des korrekten Formats) stets gewährleistet ist, um erfolgreiche und reproduzierbare KI-Musikproduktionen zu ermöglichen.








Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…