Die Spracherkennung steht: Mit Parakeet (Teil 2) und Canary (Teil 3) habe ich die Eingangsrichtung also Sprache zu Text NVIDIA-nativ abgedeckt. Jetzt kommt die Gegenrichtung, die Sprachausgabe. In diesem Beitrag betreibe ich NVIDIA Magpie TTS als lokales NIM und lasse mir deutschen Text natürlich vorlesen. Das ist das NVIDIA-native Gegenstück zu meinem früheren Beitrag über… NVIDIA Magpie TTS lokal: deutsche Sprachausgabe als Microservice weiterlesen
In Teil 2 habe ich mit Parakeet ein streamingfähiges ASR-NIM für Deutsch als Sprache aufgesetzt und als live Service betreiben mit niedriger Latenz. In diesem Beitrag nehme ich mir das Schwestermodell vor: NVIDIA Canary als NIM. Canary glänzt nicht bei der Latenz, sondern bei der Genauigkeit und es kann etwas, das Parakeet nicht beherrscht: übersetzen. Aus… NVIDIA Canary lokal: mehrsprachige Spracherkennung und Übersetzung als NIM weiterlesen
In meinem letzten Beitrag habe ich NVIDIA Nemotron ASR Streaming direkt mit NeMo lokal betrieben. Das war der „nackte“ Weg über das Framework. In diesem Beitrag gehe ich einen Schritt weiter und steige in NVIDIA NIM ein. NIM steht für NVIDIA Inference Microservices also die Microservice-Variante, mit der NVIDIA seine Modelle als fertige, optimierte Container… NVIDIA NIM lokal: deutsche Spracherkennung als Microservice betreiben weiterlesen
Echtzeit-Spracherkennung gehört zu den Bausteinen, die ich für souveräne Sprach-Agenten unbedingt selbst hosten möchte. Ich stelle mir das immer so vor das ich alles lokal laufen lasse ohne Cloud-API, ohne dass mein Audioaufnahme mein Netzwerk verlässt. Mit dem im März 2026 aktualisierten Modell NVIDIA Nemotron ASR Streaming (0.6B) gibt es dafür inzwischen eine sehr attraktive… NVIDIA Nemotron ASR Streaming lokal installieren – Schritt-für-Schritt-Anleitung weiterlesen
In meinem lokalen KI-Stack laufen bereits Inferenz-Server, Open WebUI, der Hermes-Agent, Firecrawl, SearXNG, ComfyUI und noch einige mehr. Alles habe ich auf eigener Hardware, ohne Cloud aufgesetzt. Was bisher als Integration in Open WebUI mir fehlte: Sprache. Ich wollte Open WebUI per Stimme Texte diktieren können (Speech-to-Text) und mir die Antworten vorlesen lassen (Text-to-Speech), und… Open WebUI Sprachsteuerung lokal: Deutsche STT & TTS mit Whisper, Piper und XTTS weiterlesen
Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…
Diese Website benutzt Cookies. Wenn du die Website weiter nutzt, gehen wir von deinem Einverständnis aus.
Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…