Fachartikel · KI & Automatisierung
Deutsche Sprachsynthese 2026:
8 TTS-Modelle im Praxistest
Zwischen "klingt wie 2010" und "seriously good" liegen 500 Millionen Parameter und die richtige GPU.
Hörprobe: 4 lokale Stimmen, ein Satz
Identischer Wulff-IT-Teaser — Piper (HA-Standard) vs. Qwen3-TTS Voice-Cloning. Alle lokal auf einem MacBook gerendert.
Piper · thorsten-medium
HA-StandardQwen3-TTS · rene
Voice-CloneQwen3-TTS · eder
Voice-CloneQwen3-TTS · joker
Voice-CloneBonus: Hook + Intro von Jäger gesprochen (Auszug, ≈25s)
Qwen3-TTS · jaegerModelle getestet
Von 82 MB (Piper) bis 1,6 GB (Zonos) — alle lokal, alle Open Source
Hardware-Plattformen
AMD Ryzen iGPU · Apple M4 Pro · Apple M1 Mac Mini
Bester RTF
Qwen3-TTS 4bit auf M4 Pro via mlx-audio — 5x schneller als Realtime
Für unseren Home-Assistant-Sprachassistenten suchten wir eine lokale TTS-Lösung auf Deutsch. Die Anforderung: natürlich klingende Sprachausgabe, komplett lokal, ohne Cloud-Abhängigkeit. Die Hardware: ein AMD Ryzen 7 6800U mit Radeon 680M iGPU in einem Proxmox-LXC-Container — keine NVIDIA-GPU, kein CUDA.
Was als "Quick-Test am Abend" begann, wurde zu einer systematischen Evaluation von 8 Modellen über zwei Nächte. Das Ergebnis ist ernüchternd für alle, die auf Consumer-Hardware Premium-Qualität erwarten — aber es gibt einen pragmatischen Weg.
Setup
Proxmox LXC (CT 151)
AMD Ryzen 7 6800U, 16 Cores, Radeon 680M iGPU
MacBook M4 Pro
Apple Silicon MPS — schnellste Plattform
Testtext
"Die Temperatur beträgt 22,5 Grad. Das Licht ist aus."
Ziel
Home Assistant Voice Pipeline — komplett lokal
Benchmark April 2026
8 Modelle, sortiert nach Deutsch-Qualität
RTF = Real-Time Factor. 1,0x = Echtzeit. 4,3x = Audio dauert 4,3x länger zu generieren als abzuspielen.
TTS-Ranking — Deutsche Sprachqualität
| # | Modell | Lizenz | DE | RTF CPU | RTF MPS | Fazit |
|---|---|---|---|---|---|---|
| 1 | Qwen3-TTS 0.6B | Apache 2.0 | sehr gut | 4,3x | 1,7x | Bestes Deutsch, saubere Lizenz |
| 2 | VibeVoice 0.5B | MIT / Research | gut | — | 1,5–2,8x | Erzähler-Ton, nur MPS brauchbar |
| 3 | XTTS-v2 (Coqui) | CPML | mittel | 1,9x | — | Solide aber nicht überzeugend |
| 4 | F5-TTS | MIT | schlecht* | 5–10x | — | *Stark referenz-abhängig |
| 5 | OuteTTS 1.0 | Apache 2.0 | n/a | 70x | — | Zu langsam, Save-Crash |
| 6 | Thorsten VITS | MIT | veraltet | 0,2x | — | = Piper (gleiche Architektur) |
| 7 | Tacotron2-DDC | MIT | veraltet | 0,4x | — | Kein Fortschritt vs. Piper |
| 8 | Piper | MIT | veraltet | 0,07x | — | HA-Standard, klingt nach 2020 |
Voice-Pipeline
Von 46 auf 17 Sekunden
TTS ist nur ein Glied in der Kette. Unsere lokale Pipeline: Parakeet v3 (ASR) → Gemma 4 (LLM) → Qwen3-TTS. Zwei Änderungen halbieren die Latenz.
End-to-End Latenz (ASR → LLM → TTS)
| Konfiguration | Total | Details |
|---|---|---|
| Naiv (Gemma 4 Think + Docker TTS) | 46s | Thinking 250+ Tokens, Docker lädt Modell pro Request |
| Optimiert (NoThink + Persistent TTS auf CT) | 17s | --reasoning off + FastAPI eliminiert 63% Latenz |
| NetBird + Mac Mini MLX + Disk-Cache | 4–10s | TTS über NetBird direkt an Mac Mini, Cache-Hits in 5ms |
| Mycroft + Nabu Cloud (Referenz) | 3–5s | Cloud-TTS ist 30x schneller als lokaler CPU-Decoder |
Die zwei entscheidenden Optimierungen: Erstens, Gemma 4 mit --reasoning off starten — 15 Sekunden Denkzeit für "Das Licht ist an" sind absurd. Zweitens, den TTS-Server persistent laufen lassen statt pro Request einen Docker-Container zu starten. Modell-Laden dauert 4–42 Sekunden — bei einem persistenten FastAPI-Server entfällt das komplett.
Erkenntnisse
6 Lektionen aus dem Praxistest
Die 500M-Mauer
XTTS, F5, Fish Speech: alle ~500M, alle "mittel"
Die drei populärsten Voice-Cloning-Modelle liegen alle im 500M-Parameterbereich und klingen auf Deutsch ähnlich mittelmäßig. Der Qualitätssprung kommt erst mit 1B+ Modellen — die brauchen aber GPU für Realtime.
Piper ist VITS ist Tacotron2
Alle 4 Thorsten-Modelle klingen identisch
Piper, VITS, Tacotron2-DCA und Tacotron2-DDC klingen auf demselben Dataset praktisch gleich. Piper IST ein VITS-Derivat. Wer auf ein Piper-Upgrade hofft, wird enttäuscht — selbe Generation, selber Sound.
Referenz-Audio entscheidet
F5-TTS: gruselig mit Piper-Ref, akzeptabel mit Human-Ref
Voice-Cloning-Modelle interpolieren die Artefakte der Referenz. Eine Piper-generierte Referenz erzeugt synthetischen Output. Echte menschliche Aufnahmen sind Pflicht.
Apple MPS ≠ Apple MPS
M4 Pro: 0,2x RTF — M1: 1,0x RTF
Mit mlx-audio (4bit Qwen3-TTS) hat der M4 Pro einen 5-fachen Vorsprung vor dem M1 Mac Mini. Ein 11-Sekunden-Satz wird auf dem M4 in 2,3s generiert — fast 5x schneller als Realtime. Die GPU-Architekturen der beiden Apple-Chips unterscheiden sich bei Transformer-Workloads massiv.
CPU-Threads: Weniger ist mehr
4 Threads: 4,3x — 16 Threads: 6,2x RTF
Autoregressive TTS-Decoder parallelisieren schlecht. 4–8 Threads sind optimal. 16 Threads erzeugen 40% mehr Overhead als Speedup.
Der Bottleneck ist nicht TTS
Gemma 4 Think: 15,5s für "Das Licht ist an"
In unserer lokalen Voice-Pipeline war nicht TTS der größte Blocker, sondern der LLM mit aktiviertem Thinking. Mit --reasoning off: 0,8 Sekunden. Pipeline-Optimierung heißt: alle Stufen messen.
"Klingt betrunken" war ein Format-Mismatch
Server sendet WAV, Client fragte MP3
Ein TTS der lokal perfekt klingt aber am Echo "betrunken" wirkt ist fast immer kein Qualitätsproblem. Home Assistant schickt im /v1/audio/speech Request `response_format: mp3`. Wer das im Server ignoriert und stumpf WAV-Bytes zurückliefert, lässt den Client die WAV-Samples als MP3 dekodieren — das Ergebnis klingt verzögert und verzerrt. Fix: ffmpeg on-demand Konvertierung, libmp3lame quality 4 genügt für Sprache.
Die stillen Defaults von mlx-audio
`lang_code="de"` → auto → Englisch
mlx-audio akzeptiert nur `lang_code="german"` (full name), nicht den ISO-Code `"de"`. Kurze Codes fallen silent auf `"auto"` zurück und das Modell rät dann ein falsches Phonem-System — im Ernstfall spricht Dylan deutschen Text mit amerikanischem Akzent. Das gleiche gilt für `speed=1.25` — wird ignoriert, nur `instruct="speak at a quick pace"` wirkt.
Fazit
Unsere Empfehlung
Home-Assistant-Nutzer
Bleibt bei Nabu Casa Cloud TTS oder Piper. Lokale Premium-TTS auf Consumer-Hardware ist Stand April 2026 nicht praxistauglich für Live-Interaktion.
Experimentierfreudige
Qwen3-TTS 0.6B via pip install qwen-tts auf einem Mac mit M4 Pro. Speaker "Aiden" liefert das beste Deutsch.
Zukunft
GGUF-Konvertierungen von Qwen3-TTS (Vulkan via llama.cpp) und dedizierte NVIDIA-GPUs im Homelab könnten das Bild ändern.
Methodik
Alle Tests am 11./12. April 2026. Hardware: MacBook Pro M4 Pro (48 GB), Proxmox LXC CT 151 (AMD Ryzen 7 6800U, 16 Cores, 20 GB RAM, Radeon 680M iGPU), Mac Mini M1 (8 GB). Testtext: "Das ist ein Test. Die Temperatur im Wohnzimmer beträgt 22,5 Grad. Das Licht in der Küche ist aus." Alle Modelle mit Default-Parametern (seed=123 bei Qwen3-TTS). RTF-Werte sind Durchschnitte aus 2–3 Runs.