Fachartikel · KI & Automatisierung

Deutsche Sprachsynthese 2026:
8 TTS-Modelle im Praxistest

Zwischen "klingt wie 2010" und "seriously good" liegen 500 Millionen Parameter und die richtige GPU.

April 2026 8 Modelle · 3 Plattformen · 20+ Runs

Alter Desktop-PC mit Megaphon auf einer Bühne — Metapher für Sprachsynthese

Hörprobe: 4 lokale Stimmen, ein Satz

Identischer Wulff-IT-Teaser — Piper (HA-Standard) vs. Qwen3-TTS Voice-Cloning. Alle lokal auf einem MacBook gerendert.

Piper · thorsten-medium

HA-Standard

Qwen3-TTS · rene

Voice-Clone

Qwen3-TTS · eder

Voice-Clone

Qwen3-TTS · joker

Voice-Clone

Bonus: Hook + Intro von Jäger gesprochen (Auszug, ≈25s)

Qwen3-TTS · jaeger

Modelle getestet

Von 82 MB (Piper) bis 1,6 GB (Zonos) — alle lokal, alle Open Source

Hardware-Plattformen

AMD Ryzen iGPU · Apple M4 Pro · Apple M1 Mac Mini

0,2x

Bester RTF

Qwen3-TTS 4bit auf M4 Pro via mlx-audio — 5x schneller als Realtime

Für unseren Home-Assistant-Sprachassistenten suchten wir eine lokale TTS-Lösung auf Deutsch. Die Anforderung: natürlich klingende Sprachausgabe, komplett lokal, ohne Cloud-Abhängigkeit. Die Hardware: ein AMD Ryzen 7 6800U mit Radeon 680M iGPU in einem Proxmox-LXC-Container — keine NVIDIA-GPU, kein CUDA.

Was als "Quick-Test am Abend" begann, wurde zu einer systematischen Evaluation von 8 Modellen über zwei Nächte. Das Ergebnis ist ernüchternd für alle, die auf Consumer-Hardware Premium-Qualität erwarten — aber es gibt einen pragmatischen Weg.

Setup

🖥️

Proxmox LXC (CT 151)

AMD Ryzen 7 6800U, 16 Cores, Radeon 680M iGPU

🍎

MacBook M4 Pro

Apple Silicon MPS — schnellste Plattform

🎯

Testtext

"Die Temperatur beträgt 22,5 Grad. Das Licht ist aus."

🏠

Ziel

Home Assistant Voice Pipeline — komplett lokal

Benchmark April 2026

8 Modelle, sortiert nach Deutsch-Qualität

RTF = Real-Time Factor. 1,0x = Echtzeit. 4,3x = Audio dauert 4,3x länger zu generieren als abzuspielen.

TTS-Ranking — Deutsche Sprachqualität

#	Modell	Lizenz	DE	RTF CPU	RTF MPS	Fazit
1	Qwen3-TTS 0.6B	Apache 2.0	sehr gut	4,3x	1,7x	Bestes Deutsch, saubere Lizenz
2	VibeVoice 0.5B	MIT / Research	gut	—	1,5–2,8x	Erzähler-Ton, nur MPS brauchbar
3	XTTS-v2 (Coqui)	CPML	mittel	1,9x	—	Solide aber nicht überzeugend
4	F5-TTS	MIT	schlecht*	5–10x	—	*Stark referenz-abhängig
5	OuteTTS 1.0	Apache 2.0	n/a	70x	—	Zu langsam, Save-Crash
6	Thorsten VITS	MIT	veraltet	0,2x	—	= Piper (gleiche Architektur)
7	Tacotron2-DDC	MIT	veraltet	0,4x	—	Kein Fortschritt vs. Piper
8	Piper	MIT	veraltet	0,07x	—	HA-Standard, klingt nach 2020

Voice-Pipeline

Von 46 auf 17 Sekunden

TTS ist nur ein Glied in der Kette. Unsere lokale Pipeline: Parakeet v3 (ASR) → Gemma 4 (LLM) → Qwen3-TTS. Zwei Änderungen halbieren die Latenz.

End-to-End Latenz (ASR → LLM → TTS)

Konfiguration	Total	Details
Naiv (Gemma 4 Think + Docker TTS)	46s	Thinking 250+ Tokens, Docker lädt Modell pro Request
Optimiert (NoThink + Persistent TTS auf CT)	17s	--reasoning off + FastAPI eliminiert 63% Latenz
NetBird + Mac Mini MLX + Disk-Cache	4–10s	TTS über NetBird direkt an Mac Mini, Cache-Hits in 5ms
Mycroft + Nabu Cloud (Referenz)	3–5s	Cloud-TTS ist 30x schneller als lokaler CPU-Decoder

Die zwei entscheidenden Optimierungen: Erstens, Gemma 4 mit --reasoning off starten — 15 Sekunden Denkzeit für "Das Licht ist an" sind absurd. Zweitens, den TTS-Server persistent laufen lassen statt pro Request einen Docker-Container zu starten. Modell-Laden dauert 4–42 Sekunden — bei einem persistenten FastAPI-Server entfällt das komplett.

Erkenntnisse

6 Lektionen aus dem Praxistest

Die 500M-Mauer

XTTS, F5, Fish Speech: alle ~500M, alle "mittel"

Die drei populärsten Voice-Cloning-Modelle liegen alle im 500M-Parameterbereich und klingen auf Deutsch ähnlich mittelmäßig. Der Qualitätssprung kommt erst mit 1B+ Modellen — die brauchen aber GPU für Realtime.

Piper ist VITS ist Tacotron2

Alle 4 Thorsten-Modelle klingen identisch

Piper, VITS, Tacotron2-DCA und Tacotron2-DDC klingen auf demselben Dataset praktisch gleich. Piper IST ein VITS-Derivat. Wer auf ein Piper-Upgrade hofft, wird enttäuscht — selbe Generation, selber Sound.

Referenz-Audio entscheidet

F5-TTS: gruselig mit Piper-Ref, akzeptabel mit Human-Ref

Voice-Cloning-Modelle interpolieren die Artefakte der Referenz. Eine Piper-generierte Referenz erzeugt synthetischen Output. Echte menschliche Aufnahmen sind Pflicht.

Apple MPS ≠ Apple MPS

M4 Pro: 0,2x RTF — M1: 1,0x RTF

Mit mlx-audio (4bit Qwen3-TTS) hat der M4 Pro einen 5-fachen Vorsprung vor dem M1 Mac Mini. Ein 11-Sekunden-Satz wird auf dem M4 in 2,3s generiert — fast 5x schneller als Realtime. Die GPU-Architekturen der beiden Apple-Chips unterscheiden sich bei Transformer-Workloads massiv.

CPU-Threads: Weniger ist mehr

4 Threads: 4,3x — 16 Threads: 6,2x RTF

Autoregressive TTS-Decoder parallelisieren schlecht. 4–8 Threads sind optimal. 16 Threads erzeugen 40% mehr Overhead als Speedup.

Der Bottleneck ist nicht TTS

Gemma 4 Think: 15,5s für "Das Licht ist an"

In unserer lokalen Voice-Pipeline war nicht TTS der größte Blocker, sondern der LLM mit aktiviertem Thinking. Mit --reasoning off: 0,8 Sekunden. Pipeline-Optimierung heißt: alle Stufen messen.

"Klingt betrunken" war ein Format-Mismatch

Server sendet WAV, Client fragte MP3

Ein TTS der lokal perfekt klingt aber am Echo "betrunken" wirkt ist fast immer kein Qualitätsproblem. Home Assistant schickt im /v1/audio/speech Request `response_format: mp3`. Wer das im Server ignoriert und stumpf WAV-Bytes zurückliefert, lässt den Client die WAV-Samples als MP3 dekodieren — das Ergebnis klingt verzögert und verzerrt. Fix: ffmpeg on-demand Konvertierung, libmp3lame quality 4 genügt für Sprache.

Die stillen Defaults von mlx-audio

`lang_code="de"` → auto → Englisch

mlx-audio akzeptiert nur `lang_code="german"` (full name), nicht den ISO-Code `"de"`. Kurze Codes fallen silent auf `"auto"` zurück und das Modell rät dann ein falsches Phonem-System — im Ernstfall spricht Dylan deutschen Text mit amerikanischem Akzent. Das gleiche gilt für `speed=1.25` — wird ignoriert, nur `instruct="speak at a quick pace"` wirkt.

Fazit

Unsere Empfehlung

Home-Assistant-Nutzer

Bleibt bei Nabu Casa Cloud TTS oder Piper. Lokale Premium-TTS auf Consumer-Hardware ist Stand April 2026 nicht praxistauglich für Live-Interaktion.

Experimentierfreudige

Qwen3-TTS 0.6B via pip install qwen-tts auf einem Mac mit M4 Pro. Speaker "Aiden" liefert das beste Deutsch.

Zukunft

GGUF-Konvertierungen von Qwen3-TTS (Vulkan via llama.cpp) und dedizierte NVIDIA-GPUs im Homelab könnten das Bild ändern.

Methodik

Alle Tests am 11./12. April 2026. Hardware: MacBook Pro M4 Pro (48 GB), Proxmox LXC CT 151 (AMD Ryzen 7 6800U, 16 Cores, 20 GB RAM, Radeon 680M iGPU), Mac Mini M1 (8 GB). Testtext: "Das ist ein Test. Die Temperatur im Wohnzimmer beträgt 22,5 Grad. Das Licht in der Küche ist aus." Alle Modelle mit Default-Parametern (seed=123 bei Qwen3-TTS). RTF-Werte sind Durchschnitte aus 2–3 Runs.

Deutsche Sprachsynthese 2026: 8 TTS-Modelle im Praxistest

Hörprobe: 4 lokale Stimmen, ein Satz

8 Modelle, sortiert nach Deutsch-Qualität

Von 46 auf 17 Sekunden

6 Lektionen aus dem Praxistest

Die 500M-Mauer

Piper ist VITS ist Tacotron2

Referenz-Audio entscheidet

Apple MPS ≠ Apple MPS

CPU-Threads: Weniger ist mehr

Der Bottleneck ist nicht TTS

"Klingt betrunken" war ein Format-Mismatch

Die stillen Defaults von mlx-audio

Unsere Empfehlung

Deutsche Sprachsynthese 2026:
8 TTS-Modelle im Praxistest