Stellen Sie sich vor, Sie hätten eine mühelose Möglichkeit, Ihre Lieblings-Podcasts, YouTube-Videos oder Konferenzaufnahmen in lesbaren Text umzuwandeln – oder sie sofort von einer Sprache in eine andere zu übersetzen, ohne einen Finger zu rühren. Egal, ob Sie Content Creator, Forscher oder einfach nur jemand sind, der Zeit sparen möchte: OpenAI’s Whisper ist ein echter Game-Changer.

Whisper überzeugt durch automatische Übersetzung und Transkription von Audiodateien dank seiner fortschrittlichen neuronalen Architektur und umfangreichen Mehrsprachenunterstützung. Es kann nicht nur Audiodateien mit beeindruckender Genauigkeit in Text umwandeln, sondern auch in einer anderen Sprache übersetzen – und das in einem nahtlosen Schritt. Von der Erstellung von Untertiteln für ein globales Publikum bis hin zur Vereinfachung von Post-Produktions-Workflows – Whisper liefert Ergebnisse direkt einsatzbereit.

Whisper ist ein allgemeines Spracherkennungsmodell, das von OpenAI entwickelt wurde. Es kann:

  • Audiodateien in verschiedenen Sprachen transkribieren.
  • Diese in Englisch (oder andere Sprachen je nach Konfiguration) übersetzen.

Es bietet eine breite Auswahl an vortrainierten Modellgrößen (von tiny bis large). Größere Modelle bieten in der Regel eine höhere Genauigkeit, benötigen jedoch auch mehr Rechenressourcen.


In diesem Leitfaden tauchen wir tief in die Einrichtung von Whisper auf Ubuntu mit meinem benutzerdefinierten Installationsskript ein und zeigen Ihnen anschließend, wie Sie Audioaufnahmen transkribieren und übersetzen können. Ob Sie mit lokalen Dateien oder Video-URLs arbeiten – diese Lösung bietet alles, was Sie brauchen. Die neue Benutzeroberfläche umfasst jetzt zwei Verarbeitungs-Tabs – einen für lokale Dateien und einen für Video-URLs – was sie noch vielseitiger und benutzerfreundlicher macht.

Das Bild unten zeigt meine Gradio-Web-App, die ich geschrieben habe, um die Whisper-Modelle von OpenAI für die Transkription und Übersetzung von Audiodateien zu nutzen.

Whisper Transcribe & Translate audio video

Whisper Transcribe & Translate audio video

1. Voraussetzungen

Ich betreibe zu Hause einen Ubuntu-Server mit einer NVIDIA RTX A6000, weshalb ich meine Einrichtung immer für Ubuntu beschreibe.

Hardware- und Systemanforderungen

  • Ubuntu (Getestet auf Ubuntu 20.04 und höher; andere Linux-Distributionen können ebenfalls funktionieren).
  • Python 3.7+ installiert.
  • Ausreichend Speicherplatz zum Speichern der Whisper-Modell-Dateien (das large-v2-Modell ist etwa 2 GB groß).
  • Eine NVIDIA-GPU (optional, aber empfohlen) mit CUDA-Unterstützung für schnellere Inferenz. Wenn Sie keine GPU haben, funktioniert Whisper auch mit der CPU, allerdings langsamer.

Zusätzliche Abhängigkeiten

  • FFmpeg zur Verarbeitung verschiedener Audio-/Videoformate.
  • yt-dlp, ein funktionsreicher Kommandozeilen-Audio-/Video-Downloader mit Unterstützung für Tausende von Seiten.
  • Pip zum Installieren von Python-Paketen.

2. Installation mit dem Skript

Ich habe ein benutzerdefiniertes Skript erstellt, um die Installation von Whisper auf Ubuntu zu vereinfachen. Das Skript ist in meinem GitHub-Repository für Installationsskripte für generative KI-Tools verfügbar.

2.1 Repository klonen

Öffnen Sie Ihr Terminal und klonen Sie das Repository:

git clone https://github.com/custom-build-robots/Installation-Scripts-for-Generative-AI-Tools.git
cd Installation-Scripts-for-Generative-AI-Tools

2.2 Whisper-Installationsskript ausführen

Im geklonten Repository finden Sie die Datei install_whisper.sh. Stellen Sie sicher, dass es ausführbar ist, und führen Sie es dann aus:

chmod +x install_whisper.sh
./install_whisper.sh

Was macht das Skript?

  1. Installiert FFmpeg – Essenziell für die Audio-/Videobearbeitung.
  2. Installiert Python-Abhängigkeiten – Stellt sicher, dass pip, torch und whisper verfügbar sind.
  3. Erstellt einen Ordner, um Ihre Whisper-Modelle zu speichern.

Nach Abschluss des Skripts sollten Sie eine funktionierende Whisper-Umgebung auf Ihrem Ubuntu-System haben.

3. Nutzung von Whisper: Zwei Verarbeitungsoptionen

3.1 Verarbeitung lokaler Dateien

Sie können Audio- oder Videodateien direkt von Ihrem lokalen Rechner hochladen. Die Web-App transkribiert oder übersetzt den Inhalt basierend auf Ihren gewählten Einstellungen. Unterstützte Formate sind MP3, WAV und MP4.

3.2 Verarbeitung von Video-URLs

Mit dem Video-URL-Tab können Sie einen YouTube-Link oder einen anderen Videolink einfügen. Die App lädt das Video herunter, verarbeitet die Audiodaten und gibt eine Transkription oder Übersetzung aus. Dies wird durch die Integration von yt-dlp und FFmpeg ermöglicht.

3.3 Ausführung des Beispiel-Python-Skripts

Unten finden Sie das Skript, das ich verwende, um Whisper auszuführen, wobei ein benutzerdefiniertes Download-Verzeichnis für das Modell angegeben wird. Dieses Beispiel zeigt, wie japanisches Audio ins Englische übersetzt werden kann. Sie können auch Audio transkribieren, wenn keine Sprachkonvertierung erforderlich ist.

Download: OpenAI-whisper-transcribe-or-translate-locally

Wichtige Punkte in diesem Skript

  1. model_path und model_name: Sie können auswählen, welches Whisper-Modell Sie verwenden möchten (z. B. base, small, medium, large-v2). Größere Modelle = bessere Genauigkeit, aber höherer Speicherbedarf.
  2. language: Legen Sie dies fest, wenn Sie die Quellsprache kennen. Dies beschleunigt die Verarbeitung und sorgt für bessere Ergebnisse bei der Übersetzung.
  3. task: Wenn auf "transcribe" gesetzt, erhalten Sie Text in der Originalsprache. Wenn auf "translate" gesetzt, wird der Text ins Englische übersetzt (Standard).
  4. Gespeicherte Transkriptionen: Der transkribierte/übersetzte Text wird in einer .txt-Datei neben Ihrer Audiodatei gespeichert.

4. Überprüfung und Fehlerbehebung

  • Modellspeicherung: Stellen Sie sicher, dass die Modelldateien (.pt) tatsächlich im Ordner models/ liegen. Falls nicht, lädt Whisper diese automatisch herunter.
  • GPU-Unterstützung: Standardmäßig versucht Whisper, eine GPU zu verwenden, wenn PyTorch eine erkennt. Wenn Sie die CPU-Nutzung erzwingen möchten, setzen Sie die Umgebungsvariable export CUDA_VISIBLE_DEVICES="", bevor Sie Ihr Skript ausführen.
  • Leistung: Wenn Sie große Dateien transkribieren/übersetzen oder große Modelle verwenden, können Sie eine hohe Speicherauslastung feststellen. Nutzen Sie kleinere Modelle (wie medium oder small), wenn die Ressourcen begrenzt sind.

5. Autostart des lokalen Whisper services

Bitte die folgende Datei wie folgt anlegen.

Befehl: sudo nano /etc/systemd/system/whisper.service

Jetzt die nachfolgenden Zeilen einfügen. Hier bitte darauf achten wo bei euch das Python Programm abgelegt ist. Auch bitte darauf achten das ich eine virtuelle Umgebung mit dem Namen venv_whisper verwende innerhalb der mein lokaler Whisper Service läuft.

[Unit]
Description=Whisper Transcribe & Translate Gradio App
After=network.target

[Service]
User=ingmar
WorkingDirectory=/home/ingmar/whisper_offline
ExecStart=/bin/bash -c 'source /home/ingmar/whisper_offline/venv_whisper/bin/activate && python3 /home/ingmar/whisper_offline/whisper_gradio_app.py'
Restart=always
Environment=PYTHONUNBUFFERED=1
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target

Jetzt die Datei whisper.service speichern nach dem Du diese für Dich angepasst hast.

Mit dem folgenden befehl wird die Datei whisper.service ausführbar

Befehl: sudo chmod 644 /etc/systemd/system/whisper.service

Jetzt für das Einrichten des Services im Ubuntu System die folgenden drei Befehle ausführen.

Befehl: sudo systemctl daemon-reload

Befehl: sudo systemctl enable whisper.service

Befehl: sudo systemctl start whisper.service

Mit dem jetzt folgenden Befehl einmal prüfen ob der Service auch läuft.

Befehl: sudo systemctl status whisper.service

Ab jetzt sollte der lokale Whisper Service online Sein und ihr diesen im Browser öffnen können.

5. Fazit

Whisper ist ein leistungsstarkes Werkzeug für Spracherkennung und Übersetzung. Mit meinem Installationsskript für Ubuntu können Sie den Einrichtungsprozess vereinfachen. Dank der neuen Zwei-Tab-Web-App-Oberfläche war die Verarbeitung von Audiodateien aus lokalen Quellen oder Video-URLs noch nie so einfach. Entdecken Sie die Möglichkeiten von Whisper und eröffnen Sie sich eine Welt voller Transkriptions- und Übersetzungsmöglichkeiten!