Stellen Sie sich vor, Sie hätten eine mühelose Möglichkeit, Ihre Lieblings-Podcasts, YouTube-Videos oder Konferenzaufnahmen in lesbaren Text umzuwandeln – oder sie sofort von einer Sprache in eine andere zu übersetzen, ohne einen Finger zu rühren. Egal, ob Sie Content Creator, Forscher oder einfach nur jemand sind, der Zeit sparen möchte: OpenAI’s Whisper ist ein echter Game-Changer.
Whisper überzeugt durch automatische Übersetzung und Transkription von Audiodateien dank seiner fortschrittlichen neuronalen Architektur und umfangreichen Mehrsprachenunterstützung. Es kann nicht nur Audiodateien mit beeindruckender Genauigkeit in Text umwandeln, sondern auch in einer anderen Sprache übersetzen – und das in einem nahtlosen Schritt. Von der Erstellung von Untertiteln für ein globales Publikum bis hin zur Vereinfachung von Post-Produktions-Workflows – Whisper liefert Ergebnisse direkt einsatzbereit.
Whisper ist ein allgemeines Spracherkennungsmodell, das von OpenAI entwickelt wurde. Es kann:
- Audiodateien in verschiedenen Sprachen transkribieren.
- Diese in Englisch (oder andere Sprachen je nach Konfiguration) übersetzen.
Es bietet eine breite Auswahl an vortrainierten Modellgrößen (von tiny bis large). Größere Modelle bieten in der Regel eine höhere Genauigkeit, benötigen jedoch auch mehr Rechenressourcen.
In diesem Leitfaden tauchen wir tief in die Einrichtung von Whisper auf Ubuntu mit meinem benutzerdefinierten Installationsskript ein und zeigen Ihnen anschließend, wie Sie Audioaufnahmen transkribieren und übersetzen können. Ob Sie mit lokalen Dateien oder Video-URLs arbeiten – diese Lösung bietet alles, was Sie brauchen. Die neue Benutzeroberfläche umfasst jetzt zwei Verarbeitungs-Tabs – einen für lokale Dateien und einen für Video-URLs – was sie noch vielseitiger und benutzerfreundlicher macht.
Das Bild unten zeigt meine Gradio-Web-App, die ich geschrieben habe, um die Whisper-Modelle von OpenAI für die Transkription und Übersetzung von Audiodateien zu nutzen.
1. Voraussetzungen
Ich betreibe zu Hause einen Ubuntu-Server mit einer NVIDIA RTX A6000, weshalb ich meine Einrichtung immer für Ubuntu beschreibe.
Hardware- und Systemanforderungen
- Ubuntu (Getestet auf Ubuntu 20.04 und höher; andere Linux-Distributionen können ebenfalls funktionieren).
- Python 3.7+ installiert.
- Ausreichend Speicherplatz zum Speichern der Whisper-Modell-Dateien (das
large-v2
-Modell ist etwa 2 GB groß). - Eine NVIDIA-GPU (optional, aber empfohlen) mit CUDA-Unterstützung für schnellere Inferenz. Wenn Sie keine GPU haben, funktioniert Whisper auch mit der CPU, allerdings langsamer.
Zusätzliche Abhängigkeiten
- FFmpeg zur Verarbeitung verschiedener Audio-/Videoformate.
- yt-dlp, ein funktionsreicher Kommandozeilen-Audio-/Video-Downloader mit Unterstützung für Tausende von Seiten.
- Pip zum Installieren von Python-Paketen.
2. Installation mit dem Skript
Ich habe ein benutzerdefiniertes Skript erstellt, um die Installation von Whisper auf Ubuntu zu vereinfachen. Das Skript ist in meinem GitHub-Repository für Installationsskripte für generative KI-Tools verfügbar.
2.1 Repository klonen
Öffnen Sie Ihr Terminal und klonen Sie das Repository:
git clone https://github.com/custom-build-robots/Installation-Scripts-for-Generative-AI-Tools.git
cd Installation-Scripts-for-Generative-AI-Tools
2.2 Whisper-Installationsskript ausführen
Im geklonten Repository finden Sie die Datei install_whisper.sh
. Stellen Sie sicher, dass es ausführbar ist, und führen Sie es dann aus:
chmod +x install_whisper.sh
./install_whisper.sh
Was macht das Skript?
- Installiert FFmpeg – Essenziell für die Audio-/Videobearbeitung.
- Installiert Python-Abhängigkeiten – Stellt sicher, dass
pip
,torch
undwhisper
verfügbar sind. - Erstellt einen Ordner, um Ihre Whisper-Modelle zu speichern.
Nach Abschluss des Skripts sollten Sie eine funktionierende Whisper-Umgebung auf Ihrem Ubuntu-System haben.
3. Nutzung von Whisper: Zwei Verarbeitungsoptionen
3.1 Verarbeitung lokaler Dateien
Sie können Audio- oder Videodateien direkt von Ihrem lokalen Rechner hochladen. Die Web-App transkribiert oder übersetzt den Inhalt basierend auf Ihren gewählten Einstellungen. Unterstützte Formate sind MP3, WAV und MP4.
3.2 Verarbeitung von Video-URLs
Mit dem Video-URL-Tab können Sie einen YouTube-Link oder einen anderen Videolink einfügen. Die App lädt das Video herunter, verarbeitet die Audiodaten und gibt eine Transkription oder Übersetzung aus. Dies wird durch die Integration von yt-dlp
und FFmpeg ermöglicht.
3.3 Ausführung des Beispiel-Python-Skripts
Unten finden Sie das Skript, das ich verwende, um Whisper auszuführen, wobei ein benutzerdefiniertes Download-Verzeichnis für das Modell angegeben wird. Dieses Beispiel zeigt, wie japanisches Audio ins Englische übersetzt werden kann. Sie können auch Audio transkribieren, wenn keine Sprachkonvertierung erforderlich ist.
Download: OpenAI-whisper-transcribe-or-translate-locally
Wichtige Punkte in diesem Skript
model_path
undmodel_name
: Sie können auswählen, welches Whisper-Modell Sie verwenden möchten (z. B.base
,small
,medium
,large-v2
). Größere Modelle = bessere Genauigkeit, aber höherer Speicherbedarf.language
: Legen Sie dies fest, wenn Sie die Quellsprache kennen. Dies beschleunigt die Verarbeitung und sorgt für bessere Ergebnisse bei der Übersetzung.task
: Wenn auf"transcribe"
gesetzt, erhalten Sie Text in der Originalsprache. Wenn auf"translate"
gesetzt, wird der Text ins Englische übersetzt (Standard).- Gespeicherte Transkriptionen: Der transkribierte/übersetzte Text wird in einer
.txt
-Datei neben Ihrer Audiodatei gespeichert.
4. Überprüfung und Fehlerbehebung
- Modellspeicherung: Stellen Sie sicher, dass die Modelldateien (
.pt
) tatsächlich im Ordnermodels/
liegen. Falls nicht, lädt Whisper diese automatisch herunter. - GPU-Unterstützung: Standardmäßig versucht Whisper, eine GPU zu verwenden, wenn PyTorch eine erkennt. Wenn Sie die CPU-Nutzung erzwingen möchten, setzen Sie die Umgebungsvariable
export CUDA_VISIBLE_DEVICES=""
, bevor Sie Ihr Skript ausführen. - Leistung: Wenn Sie große Dateien transkribieren/übersetzen oder große Modelle verwenden, können Sie eine hohe Speicherauslastung feststellen. Nutzen Sie kleinere Modelle (wie
medium
odersmall
), wenn die Ressourcen begrenzt sind.
5. Autostart des lokalen Whisper services
Bitte die folgende Datei wie folgt anlegen.
Befehl: sudo nano /etc/systemd/system/whisper.service
Jetzt die nachfolgenden Zeilen einfügen. Hier bitte darauf achten wo bei euch das Python Programm abgelegt ist. Auch bitte darauf achten das ich eine virtuelle Umgebung mit dem Namen venv_whisper
verwende innerhalb der mein lokaler Whisper Service läuft.
[Unit]
Description=Whisper Transcribe & Translate Gradio App
After=network.target
[Service]
User=ingmar
WorkingDirectory=/home/ingmar/whisper_offline
ExecStart=/bin/bash -c 'source /home/ingmar/whisper_offline/venv_whisper/bin/activate && python3 /home/ingmar/whisper_offline/whisper_gradio_app.py'
Restart=always
Environment=PYTHONUNBUFFERED=1
StandardOutput=journal
StandardError=journal
[Install]
WantedBy=multi-user.target
Jetzt die Datei whisper.service
speichern nach dem Du diese für Dich angepasst hast.
Mit dem folgenden befehl wird die Datei whisper.service
ausführbar
Befehl: sudo chmod 644 /etc/systemd/system/whisper.service
Jetzt für das Einrichten des Services im Ubuntu System die folgenden drei Befehle ausführen.
Befehl: sudo systemctl daemon-reload
Befehl: sudo systemctl enable whisper.service
Befehl: sudo systemctl start whisper.service
Mit dem jetzt folgenden Befehl einmal prüfen ob der Service auch läuft.
Befehl: sudo systemctl status whisper.service
Ab jetzt sollte der lokale Whisper Service online Sein und ihr diesen im Browser öffnen können.
5. Fazit
Whisper ist ein leistungsstarkes Werkzeug für Spracherkennung und Übersetzung. Mit meinem Installationsskript für Ubuntu können Sie den Einrichtungsprozess vereinfachen. Dank der neuen Zwei-Tab-Web-App-Oberfläche war die Verarbeitung von Audiodateien aus lokalen Quellen oder Video-URLs noch nie so einfach. Entdecken Sie die Möglichkeiten von Whisper und eröffnen Sie sich eine Welt voller Transkriptions- und Übersetzungsmöglichkeiten!
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…
Hi Dennis, vielen Dank für den Hinweis, ich habe die URLs angepasst so das diese wieder gehen. Ich bin gespannt…
Ich weiss, es ist noch im Aufbau. Aber hier ist ein Broken Link: https://www.ai-box.eu/smurf_training_data_small.zip Freue mich drauf, die ganze Serie…