In Teil 6 habe ich ASR, LLM und TTS mit NVIDIA Pipecat zu einem vollständigen, lokalen Voice-Loop verdrahtet. In Teil 7 habe ich diesem Loop ein Gehirn mit zwei Tools gegeben: Der NAT-Agent hängt jetzt als „LLM-Stufe“ im Loop und kann über Tools echte Aktionen ausführen, etwa die Zeit ansagen oder die GPU-Auslastung melden. Es… Souveräner Voice-Agent: Lokales Wake-Word als Türsteher vor ASR, LLM und TTS weiterlesen
In Teil 6 steht der erste vollständige, lokale Voice-Loop: Ich spreche, Parakeet transkribiert, ein Ollama-LLM antwortet, Magpie spricht. Schön zum Reden auf Basis des gelernten Wissens des LLMs aber der Agent kann noch nichts tun: Im Loop hängt ein nacktes LLM, das frei drauflosredet und keinen Zugriff auf Werkzeuge hat. Genau da setzt dieser Teil… Voice-Agent mit Tool-Calling: NAT als Gehirn im lokalen Pipecat-Loop Zeitansage & Co. weiterlesen
Alle Bausteine liegen jetzt lokal vor: ASR (Parakeet, Canary), TTS (Magpie), ein LLM über meinen Ollama-Server und der Orchestrator (NAT, Teil 5). Jetzt verbinde ich sie zu einem durchgängigen, unterbrechbaren Sprach-Loop. Das wird mein erster kleine lokale Voice-Agent. Mein Zielbild ist eine Art General-Agent: Ich spreche, er versteht, erledigt Dinge und antwortet mir in natürlicher… Lokaler Voice-Agent: ASR, LLM und TTS mit NVIDIA Pipecat lokal zum Loop verbinden weiterlesen
Die beiden Hälften eines Sprach-Agenten stehen: Mit Parakeet (Teil 2) und Canary (Teil 3) hört der Agent zu, mit Magpie (Teil 4) antwortet er. Was noch fehlt, ist das Gehirn: die Schicht, die aus dem erkannten Text eine Entscheidung macht und die passende Antwort oder Aktion auslöst. Genau dafür nehme ich mir in diesem Teil… NVIDIA NeMo Agent Toolkit (NAT): den Agenten-Orchestrator lokal aufsetzen weiterlesen
Die Spracherkennung steht: Mit Parakeet (Teil 2) und Canary (Teil 3) habe ich die Eingangsrichtung also Sprache zu Text NVIDIA-nativ abgedeckt. Jetzt kommt die Gegenrichtung, die Sprachausgabe. In diesem Beitrag betreibe ich NVIDIA Magpie TTS als lokales NIM und lasse mir deutschen Text natürlich vorlesen. Das ist das NVIDIA-native Gegenstück zu meinem früheren Beitrag über… NVIDIA Magpie TTS lokal: deutsche Sprachausgabe als Microservice weiterlesen
Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…
Diese Website benutzt Cookies. Wenn du die Website weiter nutzt, gehen wir von deinem Einverständnis aus.
Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…