KI für die Hosentasche: Sprachdialog-System für unter 15€!

Das ESP32‑C3 Mini AI‑Sprachdialog Modul ist ein extrem günstiges, aber erstaunlich leistungsfähiges kleines Board für alle, die mit KI‑Sprachdialogen, Edge‑Geräten oder lokalen Assistenten experimentieren möchten. Für rund 12–13 € erhält man ein voll funktionsfähiges Sprach‑Interface mit Display, Mikrofon, Lautsprecher und Cloud‑Anbindung.
Da zusätzlich ein JST 1,25-Stecker Anschluss vorhanden ist, habe ich gleich einen 3,7V Lithium-Akku mit Schutzplatine mitbestellt. Unbedingt auf die Polung achten!

In diesem Beitrag zeige ich dir, was das Modul kann, wie es funktioniert, welche Stärken und Schwächen es hat – und warum es sich besonders für Maker lohnt.

Was ist das ESP32‑C3 Mini AI‑Sprachdialog Modul?

Das Board basiert auf einem ESP32‑C3 Mikrocontroller mit integriertem 2,4 GHz Wi‑Fi und 16 MB Flash.

Es bringt außerdem ein 0,96‑Zoll OLED‑Display zur Statusanzeige.

Besonders spannend: Das Modul unterstützt mehrere KI‑Großmodelle, darunter:

DeepSeek
Qwen 3
Doubao
Xiaozhi Lite

Damit lassen sich Sprachdialoge, emotionale Interaktionen und mehrsprachige Assistenten realisieren.

Quellcode auf GitHub: xiaozhi-esp32: An MCP-based chatbot

Audio‑Hardware & Sprachqualität

Das Board enthält:

ES8311 Audio‑Codec
NS4150B Verstärker
externen Mini‑Lautsprecher 8Ω 2W
On‑Board Mikrofon

Damit liefert es eine solide Sprachaufnahme und verständliche Ausgabe – nicht laut, aber klar genug für 1–2 m Entfernung.

Anschlüsse & Hardware‑Features

USB-C
Speaker JST 1.25mm Anschluss
Lithium-Akku-Management mit 1.25mm Anschluss
4x GPIO für bereits angelöteten OLED Display

Das Modul bietet leider keine zusätzlichen GPIO Anschlussmöglichkeiten

Einrichtung & Nutzung der AI Funktion

Die Einrichtung ist einfach:

Modul per USB‑C anschließen
Im Smartphone nun das WLAN „Xiaozhi-xxx“ auswählen
6stellige Geräte Nummer erscheint auf OLED Display
Im Browser öffnet sich die Seite 192.168.4.1
Deine 2,4‑GHz‑WLAN‑Zugangsdaten eingeben (Sichere Umgebung wie Gästenetz auswählen)
Der ESP32 resetet und startet neu
https://xiaozhi.me/ im Browser aufrufen
Gerät im Web‑Interface mit Smartphone Telefonnummer registrieren
Es wird ein 6stelliger Code geschickt
Damit anmelden
In Console Gerät hinzufügen mit Geräte Nummer von dem OLED Display
Modell und Sprache auswählen (z. B. DeepSeek)

Einrichtung dauert 1-2 Minuten.

Deutsche Herstellerdokumentation: http://8.217.75.21/Industrial/Multilingual/CBAA0046-069_DE.pdf

Das Display zeigt währenddessen Statusmeldungen an – anfangs auf Chinesisch, später in der gewählten Sprache.

Wer sich mit einem GitHub als Entwickler authentifiziert erhält weitere Optionen:

Category 1 Feature	Category 2 Feature	Normal User	Open Source Developer
Language Model	Xiaozhi Lite	√	√
	DeepSeek Quantized	√	√
	Qwen 3	–	√
	DeepSeek Full	–	√
	Doubao	–	√
	GLM 4.7 (Beta)	–	√(Limited-time free)
	Kimi K2 (Beta)	–	√(Limited-time free)
Vision Model		√(Limited-time free)	√(Limited-time free)
Memory Type	No Memory	√	√
	Short-term Memory	√	√
	Long-term Memory	√(Limited-time free)	√(Limited-time free)
Role Voice	Mandarin	√	√
	Mandarin (Beta Voice)	–	√(Limited-time free)
	Other Languages	√	√
MCP Services	Weather	√	√
	Joke	√	√
	Music	√	√
	News	√	√
	Knowledge Base(Beta)	√(Limited-time free)	√(Limited-time free)
	Beta MCP Services	–	√(Limited-time free)
Knowledge Base	Simple Parse Document	√	√
	AI Optimized Parse Document	–	√(Limited-time free)
	Knowledge Base Count	1	10
	Document Count Per Knowledge Base	1	10
Other	developerAuth.kb.boundDevices	10	100

Verwendung Sprachassistent:

Unterstützte Sprachbefehle (Beispiele)

Habe damit unter anderem zu folgenden fragen eine brauchbare Antwort bekommen:

„Wie ist das Wetter heute in Köln“
„Erzähl mir einen Witz“
„Recherchiere zum Thema …“
„Erhöhe die Lautstärke“
„Durchschnittlicher Kraftstoffverbrauch beim Autotyp xxx“
„Spiele Musik“

Wenn eine Sprachausgabe oder ein Musikstück abläuft, lässt sich der Vorgang mit Sprache nicht unterbrechen. Hier ggf die Reset/Wachauf Taste drücken.

Bei der Anweisung mir einen Timer zu stellen, wurde mir versprochen das ich ein Signal bekomme, das dann aber nicht funktionierte. Die Sekunden rückwärts zu zählen geht aber. Beim Buchstabieren hat es einen Buchstaben doppelt aufgesagt.

Der gesprochene Text ist im Browser unter „Chat History“ 30 Tage einsehbar. Interessant das auch die AI Kommandos zu sehen sind:

Wichtiger Hinweis: Netzwerk‑Sicherheit

Das Modul kommuniziert sehr aktiv mit chinesischen Servern, wie mehrere Rezensionen warnen:

„Das Gerät quatscht fleißig mit verschiedensten Servern“
„Dieses Gerät möchte niemand ungefiltert im eigenen Netzwerk haben“
Empfehlung: VLAN oder Gast‑WLAN nutzen

Für erfahrene Maker ist das kein Problem – aber man sollte es wissen.

Für wen eignet sich das Modul noch?

Dieses Board ist ideal für:

Maker & Bastler
ESP32‑Fans
KI‑Experimentierer
Smart‑Home‑Hobbyisten
3D‑Druck‑Projekte
Entwickler, die eigene Firmware flashen wollen

Nicht geeignet für:

sicherheitskritische Umgebungen
Nutzer, die „Plug & Play“ ohne Cloud wollen
Personen, die hohe Audioqualität erwarten

Was kann man damit bauen?

Ein paar Projektideen:

IoT‑Projekte
Smart‑Home‑Steuerungen
Mobiler KI‑Begleiter
Interaktiver KI‑Lautsprecher
WLAN‑basierter Home‑Assistant‑Client
Story‑Speaker
Lern‑Assistent

Backup

Vor und Nach der Einrichtung besser mal ein Backup mit ESPTool anlegen. Sicher ist sicher. Musste aber die Optionen etwas anpassen:

python -m esptool --no-stub -p COM6 -b 115200 read-flash 0 0x1000000 esp32_backup.bin

Fazit

Das Heemol ESP32‑C3 Mini AI‑Sprachdialog Modul ist ein faszinierendes kleines Gadget: günstig, vielseitig und perfekt für Experimente mit KI‑Sprachdialogen.
Es ist kein fertiger Smart‑Speaker – aber ein Spielplatz für Maker, die eigene Assistenten, IoT‑Geräte oder KI‑Interfaces entwickeln wollen.

Mit etwas Netzwerk‑Hygiene (VLAN!) und Kreativität kann man daraus erstaunlich viel herausholen.

Youtube Video:

Update:

Es gibt inzwischen ein weiteres ESP32-C3 Board mit OLED Display und Speaker, das schon die Revision v0.4 trägt. Es wird zu dem sogar mit einem kleinen 300mA Akku angeboten.

3D Druck:
Einfaches kleines Gehäuse für ESP32-C3 mit OLED Display mit Speaker und diesem 300mA Akku.
Box mit Deckel 41x43x17mm oder Box mit Ständer 41x30x50mm

https://makerworld.com/de/models/2812516-esp32-c3-sprachdialog-system-gehause