Was kostet Voice realistisch?

Team von 10, 30 Voice-Memos/Tag à 30 Sekunden: ~30 €/Monat STT. TTS optional ~10 €/Monat. Insgesamt unter 50 €.

Funktioniert Voice in Slack?

Slack hat keine Voice-Messages nativ, aber Audio-Datei-Uploads. OpenClaw transkribiert die.

Datenschutz bei Whisper?

OpenAI Whisper-API mit Enterprise-AVV ist DSGVO-tauglich für nicht-höchstsensible Daten. Sonst lokales Whisper (auf M-Series-Mac performant).

Ratgeber

OpenClaw Voice (STT/TTS) einrichten

Voice ist der schnellste Weg, Tasks zu diktieren. Hier ist das komplette Setup für mehrsprachige Voice-Workflows mit OpenClaw.

Manuel Streit

/ 11. Mai 2026 / 3 min Lesezeit

Über diesen Artikel

OpenClaw Voice-Setup: Whisper STT, OpenAI/ElevenLabs TTS, Latenz-Tuning, Voice-Memo-zu-Task-Workflow und mehrsprachige Erkennung.

STT-Provider wählen

Drei Optionen:

Whisper-API (OpenAI): günstig (~0,006 €/min), 99 Sprachen, 1–2 s Latenz
Deepgram: schneller (Streaming), besser für Live-Transkription, etwas teurer
Lokales Whisper: 0 € pro Minute, läuft auf M-Series Macs gut, Latenz 2–5 s

Empfehlung für Start: OpenAI Whisper-API. Bei Datenschutz-Bedenken: lokal.

TTS optional

OpenAI TTS ist günstig und gut, ElevenLabs natürlicher (höherer Preis). Für Replies in WhatsApp/Telegram als Voice-Message nett, aber nicht zwingend.

Voice-Memo-zu-Task-Workflow

User sendet Voice-Message an Bot via WhatsApp:

OpenClaw empfängt ogg/opus-File
Whisper transkribiert
Skill voice-to-task klassifiziert: Task, Notiz, Frage?
Falls Task: in CRM eingetragen, Confirm-Reply zurück

Mehrsprachigkeit

Whisper erkennt Sprachen automatisch. Deutsch, Englisch, Türkisch, Arabisch, Französisch — alle gut. Für Dialekte (Bairisch, Schwizerdütsch) Benchmarks vor dem Rollout.

Latenz tunen

Streaming-STT (Deepgram) bringt erste Wörter unter 500 ms. OpenAI Whisper-API liefert nach 1–2 s das volle Transcript. Für Real-Time-Conversation: Streaming. Für asynchrone Voice-Memos: Whisper.