Souveräne KI auf dem Mikrocontroller: Wie ich mit ESP-Claw einen KI-Agenten auf HMI-Hardware zum Leben erwecke - Auftakt einer neuen Serie

Nachdem ich euch in meinen Beitrag zum Thema „Souveräne KI“ gezeigt habe, wie ich mit Ollama und Docker meinen eigenen, unabhängigen LLM-Server auf NVIDIA-GPUs aufgebaut habe, möchte ich jetzt einen Schritt weiter gehen. Die Frage, die mich seit Wochen beschäftigt: Wie weit lässt sich generative KI vom Inferenz GPU-Server bis hinunter auf einen kleinen Mikrocontroller bringen und was kann ich damit anstellen?

Die Antwort darauf ist eine ganze neue Beitragsserie, die ich heute hier auf meinem Blog starte. Im Zentrum steht ein wie ich finde neues und sehr interessantes Framework von Espressif namens ESP-Claw, ein HMI-Board mit ESP32-P4 und mein Wunsch, meine bestehenden Roboter-Autos über einen lokalen KI-Agenten zu steuern. Das ESP32-Claw Framwork findet ihr hier: https://github.com/espressif/esp-claw

Table of Contents

Worum geht es in dieser neuen Serie?

In dieser Serie geht es nicht um den physischen Bau eines Roboters. Wer die mechanische und elektronische Seite meiner Roboter-Autos kennenlernen möchte, findet alle Bauanleitungen, Schaltpläne und Mechanik-Themen wie gewohnt auf meinem zweiten Blog custom-build-robots.com. Hier auf meinem Blog ai-box.eu hier liegt der Fokus ausschließlich auf der KI-Schicht.

ESP32-CLAW HMI board robot car

Wie kam es zu der Idee?

Ich habe für zwei Schulprojekte bei meiner Tochter eine Vielzahl an Roboter-Autos gebaut. Dann habe ich immer wieder Gespräche mit Kolleginnen und Kollegen die z. B. erzählen das die eigene Mutter die Waschmaschine die Sie seit 55 Jahren ohne Probleme bedienen konnte nicht mehr bedienen kann. Die Eltern stehen vor dem Gerät und wissen nicht mehr wie es geht. Sie merken es stimmt etwas nicht trauen sich aber nicht die Kinder anzurufen. Können wir da nicht einen Comaninen entwerfen der lokal unaufdringlich helfen kann?

Kurz gesagt an Hardware wie Roboter-Autos, Elektronik und Ideen mangelt es mir nicht.

Los geht es mit einer kleinen Übersicht der Themen die es gilt zu lösen:

Wie läuft überhaupt ein LLM-Agent auf einem ESP32-P4?
Wie spricht ein Mikrocontroller mit meinem lokalen Ollama-Server?
Was sind „Skills“ und „Capabilities“ in einem Edge-Agent auf einem Mikrocontroller?
Wie verwandle ich gesprochene Befehle in Aktionen am Roboter?
Welche Sensoren und Aktoren kann ich steuern und wie?
Wie integriere ich Tool-Calling, Speicher und MCP-Server auf einer Hardware mit 32 MB RAM?

Das Ziel am Ende der Serie bzw. meines Weges:

Ein Roboter-Auto bzw. Endgerät, das ich mit natürlicher Sprache steuern kann. Dieses soll vollständig lokal, ohne Cloud, ohne API-Keys an externe Anbieter arbeiten können. Genau das, was ich unter „Souveräne KI“ verstehe.

Was ist ESP-Claw eigentlich?

ESP-Claw ist ein neues Open-Source-Framework von Espressif, das auf ihren leistungsstarken ESP32-P4-Chips läuft. Vereinfacht gesagt: ESP-Claw macht aus einem Mikrocontroller einen vollwertigen, eigenständigen KI-Agenten mit allem, was dazugehört:

Komponente	Was sie macht	Warum das wichtig ist
LLM-Anbindung	Spricht mit OpenAI, Anthropic, Aliyun Bailian, oder einem lokalen Ollama Inferenz-Server	Ich bleibe Herr meiner Daten – das LLM läuft auf meinem A6000-Server
Capabilities	Vordefinierte Fähigkeiten (Messenger, Dateien, Web-Suche, Scheduler)	Modulares Erweitern wie bei einem App-Store
Skills	Eigene Funktionen, die das LLM aufrufen kann (Tool-Calling)	Hier verbinde ich Sprache mit Roboter-Hardware
Lua-Runtime	Skripte zur Laufzeit ausführen	Logik anpassen ohne die Firmware neu zu flashen
MCP-Server	Model Context Protocol – Standard für KI-Integrationen	Mein ESP32 wird zum Server für andere KI-Tools

Das alles läuft auf einem einzigen Chip, mit Display, Touch, Audio, WiFi und Bluetooth. Genau das, was man eine All-in-One-Edge-AI-Plattform nennt.

Warum ein HMI-Board? Warum nicht direkt ein Raspberry Pi?

Eine berechtigte Frage. Mein Standpunkt dazu ist klar: Ein Human-Machine-Interface-Board – also ein Mikrocontroller mit eingebautem Touchscreen – ist die ideale Plattform für einen Edge-Agenten:

Boot-Zeit: 1–2 Sekunden statt 30–60 Sekunden wie bei einem Pi
Stromverbrauch: Wenige Hundert Milliwatt statt 5–10 Watt
Robustheit: Kein Linux-Dateisystem, das sich beim plötzlichen Stromausfall korrumpiert
Echtzeit: Direkter Zugriff auf GPIO, I²C, UART, PWM – ideal für Robotik
Preis: Boards wie das Guition JC1060P470 gibt es für unter 25 Euro und der Raspberry Pi kostet hier deutlich mehr.

Das ist kein theoretischer Vorteil. Wenn ich vor meinem Roboter-Auto stehe und es per Sprachbefehl steuern möchte, will ich nicht auf einen Linux-Boot warten. Ich will so schnell wie möglich loslegen.

Meine Ausgangsbasis: Das Guition JC1060P470

Ich will hier ehrlich sein. Ich hatte einfach auf Ali Express nach einem ESP32-P4 Board geschaut das viele Anschlüsse bietet und unter 30,-€ kostet. So ist es dann ein Guition JC1060P470 geworden. Ein HMI-Board mit folgender Ausstattung:

ESP32-P4 als Haupt-SoC (RISC-V Dual-Core, 360 MHz)
ESP32-C6 als Co-Prozessor für WiFi 6 und Bluetooth 5 (per ESP-Hosted SDIO angebunden)
7-Zoll IPS-Display mit 1024×600 Pixeln und MIPI-DSI-Anbindung (bei mir nicht mit dabei)
Kapazitiver Touch (GT911)
Audio-Codec ES8311 mit Mikrofon und Lautsprecher-Anschluss
microSD-Slot, RJ45-Ethernet
16 MB Flash, 32 MB Octal-PSRAM

Alles für rund 25 Euro und ich konnte einfach nicht wiederstehen es zu kaufen um endlich einen ESP32-P4 mein eigenen nennen zu können.

Mein Ziel: Souveränität auch bei der Hardware

Der Plan ist simpel, aber technisch herausfordernd:

ESP-Claw kompilieren und auf das Board flashen – inklusive eigener Board-Adaption wie ich lernen musste
Anbindung an meinen Ollama-Server auf dem ich verschiedenen Modelle betreibe
Eigene Skills entwickeln, die mein ESP32-basiertes Roboter-Auto über WiFi steuern
Sprach-Interaktion über Mikrofon und Lautsprecher direkt am HMI-Board
Lua-Skripte schreiben, die Verhaltensmuster definieren („Suche das rote Objekt“, „Fahre in die Küche“)

Die LLM-Inferenz bleibt dabei immer in meinen vier Wänden. Mein Roboter spricht mit Qwen 3.6 35B auf meinem eigenen Server. Es besteht keine Verbindung zu OpenAI & Co außerhalb Europas. Das ist der rote Faden, der sich durch alle meine Beiträge zieht: Volle Kontrolle, kein Token-Abo, keine Datenabhängigkeit von externen Anbietern.

Was kommt in den nächsten Beiträgen?

Diese Serie wird vermutlich aus folgenden Teilen bestehen (Reihenfolge kann sich ändern, je nachdem wie sich die Themen entwickeln und ich Zeit finde):

Teil 1 (dieser Beitrag): Auftakt und Vorstellung der Vision
Teil 2: ESP-IDF v5.5.4 einrichten und ESP-Claw bauen – Schritt für Schritt
Teil 3: Ein neues Board zu ESP-Claw hinzufügen – meine Board-Adaption für das Guition JC1060P470
Teil 4: ESP-Claw mit dem eigenen Ollama-Server verbinden – Konfiguration und erste Chats
Teil 5: Capabilities und Skills verstehen – die Architektur eines ESP-Claw-Agenten
Teil 6: Eine eigene Skill schreiben – das Roboter-Auto fernsteuern oder den Geschirrspühler erklären
Teil 7: Sprache rein, Sprache raus – das HMI-Board als echter Voice-Assistant zur Unterstützung an der Waschmaschine
Teil 8: Lua-Skripte für Verhaltensmuster – wenn der Agent eigenständig handelt

Was tatsächlich entsteht und in welcher Reihenfolge, hängt davon ab, worauf ich in der Praxis stoße und wie viel Zeit ich jetzt im Sommer dafür habe. Aber genau das macht für mich den Reiz aus: Echte Maker-Arbeit, mit echten Stolpersteinen und echten Aha-Momenten. Wie viele meiner Projekte entsteht dieses auch nebenbei und ich bin gespannt was daraus entstehen kann.

Die Brücke zu meinem Roboter-Auto Aktivitäten

Wer mich aus meiner Roboter-Welt kennt, weiß: Auf custom-build-robots.com zeige ich seit Jahren, wie ich ESP*- oder Raspberry Pi-basierte Roboter-Autos baue. Ausgestattet mit Motoren, Sensoren, Kameras und allem, was dazugehört. Auch mein Buch „Roboter-Autos mit dem ESP32″ (erschienen im Rheinwerk Verlag) deckt diese physische Seite ab.

Diese Serie hier auf meinem Blog ergänzt das um die KI-Schicht. Ein Roboter-Auto, das ich gebaut habe, bekommt einen sprechenden, denkenden Co-Piloten, der vom HMI-Board aus mit ihm kommuniziert. Wer also den kompletten Weg gehen möchte vom Lötkolben bis zum Sprachbefehl findet auf beiden Blogs zusammen die volle Geschichte.

Mein persönliches Fazit zum Auftakt

Wir leben in einer Zeit, in der KI-Agenten meistens als Cloud-Dienst angeboten werden. Jeder Sprachbefehl, jede Frage, jedes Foto wandert über das Internet zu einem fremden Server, wird dort verarbeitet und kommt verändert zurück. Das funktioniert aber es ist das Gegenteil von Souveränität. In den Eltern-Chat-Gruppen und bei Talenttagen an der Schule ist das aufnehmen von Bildern ein großes Thema. Da frage ich mich immer wie konsequent sind die lautesten Eltern dann im privaten und firmen Alltag bei der Nutzung von doch so bequemen Services?

Mit ESP-Claw auf einem HMI-Board wird der KI-Agent zur lokalen, eigenständigen Einheit. Er gehört mir. Er läuft bei mir. Er kommuniziert mit meinem Server. Niemand muss meine Daten lesen, niemand kann ihn abschalten, und ich zahle keine Gebühren pro Token.

Das ist die Vision dieser Serie. In den kommenden Beiträgen zeige ich euch, wie ich diese Vision Schritt für Schritt in die Realität umsetze mit allen Stolpersteinen, die so ein Pionier-Projekt mit sich bringt.

Wir lesen uns im nächsten Teil!

Hinterlasse eine Antwort Antwort abbrechen

Bastian Strehle zu Souveräne KI für mich und für dich: So baue ich meinen eigenen, unabhängigen Ollama-Server mit Docker und NVIDIA GPU-PowerOktober 4, 2025
Ein toller Guide der leicht zugänglich und verständlich ist. Perfekt für ein kleines Side-Project geeignet. Aktuell half mir noch mein…
Tobe2d zu Email-to-Art: Automatisierung der KI-Bildgenerierung mit n8n, ComfyUI, Ollama & FLUX.1-devMärz 23, 2025
Thank you for this great tutorial, could you share n8n workflow and comfyui workflow please?
Maker zu LLM Agenten arbeiten eigenständig – mit CrewAI automatisierenDezember 22, 2024
Hallo Anton, die Meldung besagt das in meinem Beisiel Methoden verwendet werden die veraltet (deprecated) sind. Also müsstest Du die…
Anton zu LLM Agenten arbeiten eigenständig – mit CrewAI automatisierenNovember 8, 2024
Danke für das Tool! Ich habe erst kürzlich angefangen mich mit der Thematik zu beschäftigen und bin für meine Erwartungen…
Benedikt Durnberger zu Stable Diffusion – AUTOMATIC1111 Ubuntu Installation Teil 2/2September 25, 2023
Hallo, ich habe ihre Anleitung befolgt und bekomme im letzten Schritt leider immer folgende Meldung im Terminal: bash <(wget -qO-…

Souveräne KI auf dem Mikrocontroller: Wie ich mit ESP-Claw einen KI-Agenten auf HMI-Hardware zum Leben erwecke – Auftakt einer neuen Serie

Worum geht es in dieser neuen Serie?

Wie kam es zu der Idee?

Los geht es mit einer kleinen Übersicht der Themen die es gilt zu lösen:

Was ist ESP-Claw eigentlich?

Warum ein HMI-Board? Warum nicht direkt ein Raspberry Pi?

Meine Ausgangsbasis: Das Guition JC1060P470

Mein Ziel: Souveränität auch bei der Hardware

Was kommt in den nächsten Beiträgen?

Die Brücke zu meinem Roboter-Auto Aktivitäten

Mein persönliches Fazit zum Auftakt

Related Posts:

Über den Autor

Maker

Hinterlasse eine Antwort Antwort abbrechen

Latest Posts

Souveräne KI auf dem Mikrocontroller: Wie ich mit ESP-Claw einen KI-Agenten auf HMI-Hardware zum Leben erwecke – Auftakt einer neuen Serie

Worum geht es in dieser neuen Serie?

Wie kam es zu der Idee?

Los geht es mit einer kleinen Übersicht der Themen die es gilt zu lösen:

Was ist ESP-Claw eigentlich?

Warum ein HMI-Board? Warum nicht direkt ein Raspberry Pi?

Meine Ausgangsbasis: Das Guition JC1060P470

Mein Ziel: Souveränität auch bei der Hardware

Was kommt in den nächsten Beiträgen?

Die Brücke zu meinem Roboter-Auto Aktivitäten

Mein persönliches Fazit zum Auftakt

Related Posts:

Über den Autor

Maker

zusammenhängende Posts

vLLM auf Gigabyte AI TOP ATOM installieren: Hochperformante LLM-Inference mit OpenAI-kompatibler API – Teil 2-3

DeepSeek R1 Die neue Revolution im KI-Bereich

Conversational Applikation – Arbeite mit Deinen Daten zusammen mit Large Language Modellen

Ostris AI Toolkit – Ubuntu Installation

Hinterlasse eine Antwort Antwort abbrechen

Latest Posts