OpenClaw Voice (STT/TTS) einrichten
Voice ist der schnellste Weg, Tasks zu diktieren. Hier ist das komplette Setup für mehrsprachige Voice-Workflows mit OpenClaw.
STT-Provider wählen
Drei Optionen:
- Whisper-API (OpenAI): günstig (~0,006 €/min), 99 Sprachen, 1–2 s Latenz
- Deepgram: schneller (Streaming), besser für Live-Transkription, etwas teurer
- Lokales Whisper: 0 € pro Minute, läuft auf M-Series Macs gut, Latenz 2–5 s
Empfehlung für Start: OpenAI Whisper-API. Bei Datenschutz-Bedenken: lokal.
TTS optional
OpenAI TTS ist günstig und gut, ElevenLabs natürlicher (höherer Preis). Für Replies in WhatsApp/Telegram als Voice-Message nett, aber nicht zwingend.
Voice-Memo-zu-Task-Workflow
User sendet Voice-Message an Bot via WhatsApp:
- OpenClaw empfängt ogg/opus-File
- Whisper transkribiert
- Skill
voice-to-taskklassifiziert: Task, Notiz, Frage? - Falls Task: in CRM eingetragen, Confirm-Reply zurück
Mehrsprachigkeit
Whisper erkennt Sprachen automatisch. Deutsch, Englisch, Türkisch, Arabisch, Französisch — alle gut. Für Dialekte (Bairisch, Schwizerdütsch) Benchmarks vor dem Rollout.
Latenz tunen
Streaming-STT (Deepgram) bringt erste Wörter unter 500 ms. OpenAI Whisper-API liefert nach 1–2 s das volle Transcript. Für Real-Time-Conversation: Streaming. Für asynchrone Voice-Memos: Whisper.