Fachartikel · KI & Automatisierung

Deutsche Sprachsynthese 2026: 8 TTS-Modelle im Praxistest

Zwischen "klingt wie 2010" und "seriously good" liegen 500 Millionen Parameter und die richtige GPU.

April 2026 8 Modelle · 3 Plattformen · 20+ Runs
Alter Desktop-PC mit Megaphon auf einer Bühne — Metapher für Sprachsynthese

Hörprobe: 4 lokale Stimmen, ein Satz

Identischer Wulff-IT-Teaser — Piper (HA-Standard) vs. Qwen3-TTS Voice-Cloning. Alle lokal auf einem MacBook gerendert.

Piper · thorsten-medium

HA-Standard

Qwen3-TTS · rene

Voice-Clone

Qwen3-TTS · eder

Voice-Clone

Qwen3-TTS · joker

Voice-Clone

Bonus: Hook + Intro von Jäger gesprochen (Auszug, ≈25s)

Qwen3-TTS · jaeger
8

Modelle getestet

Von 82 MB (Piper) bis 1,6 GB (Zonos) — alle lokal, alle Open Source

3

Hardware-Plattformen

AMD Ryzen iGPU · Apple M4 Pro · Apple M1 Mac Mini

0,2x

Bester RTF

Qwen3-TTS 4bit auf M4 Pro via mlx-audio — 5x schneller als Realtime

Für unseren Home-Assistant-Sprachassistenten suchten wir eine lokale TTS-Lösung auf Deutsch. Die Anforderung: natürlich klingende Sprachausgabe, komplett lokal, ohne Cloud-Abhängigkeit. Die Hardware: ein AMD Ryzen 7 6800U mit Radeon 680M iGPU in einem Proxmox-LXC-Container — keine NVIDIA-GPU, kein CUDA.

Was als "Quick-Test am Abend" begann, wurde zu einer systematischen Evaluation von 8 Modellen über zwei Nächte. Das Ergebnis ist ernüchternd für alle, die auf Consumer-Hardware Premium-Qualität erwarten — aber es gibt einen pragmatischen Weg.

Setup

🖥️

Proxmox LXC (CT 151)

AMD Ryzen 7 6800U, 16 Cores, Radeon 680M iGPU

🍎

MacBook M4 Pro

Apple Silicon MPS — schnellste Plattform

🎯

Testtext

"Die Temperatur beträgt 22,5 Grad. Das Licht ist aus."

🏠

Ziel

Home Assistant Voice Pipeline — komplett lokal

Benchmark April 2026

8 Modelle, sortiert nach Deutsch-Qualität

RTF = Real-Time Factor. 1,0x = Echtzeit. 4,3x = Audio dauert 4,3x länger zu generieren als abzuspielen.

TTS-Ranking — Deutsche Sprachqualität

# Modell Lizenz DE RTF CPU RTF MPS Fazit
1 Qwen3-TTS 0.6B Apache 2.0 sehr gut 4,3x 1,7x Bestes Deutsch, saubere Lizenz
2 VibeVoice 0.5B MIT / Research gut 1,5–2,8x Erzähler-Ton, nur MPS brauchbar
3 XTTS-v2 (Coqui) CPML mittel 1,9x Solide aber nicht überzeugend
4 F5-TTS MIT schlecht* 5–10x *Stark referenz-abhängig
5 OuteTTS 1.0 Apache 2.0 n/a 70x Zu langsam, Save-Crash
6 Thorsten VITS MIT veraltet 0,2x = Piper (gleiche Architektur)
7 Tacotron2-DDC MIT veraltet 0,4x Kein Fortschritt vs. Piper
8 Piper MIT veraltet 0,07x HA-Standard, klingt nach 2020

Voice-Pipeline

Von 46 auf 17 Sekunden

TTS ist nur ein Glied in der Kette. Unsere lokale Pipeline: Parakeet v3 (ASR) → Gemma 4 (LLM) → Qwen3-TTS. Zwei Änderungen halbieren die Latenz.

End-to-End Latenz (ASR → LLM → TTS)

Konfiguration Total Details
Naiv (Gemma 4 Think + Docker TTS) 46s Thinking 250+ Tokens, Docker lädt Modell pro Request
Optimiert (NoThink + Persistent TTS auf CT) 17s --reasoning off + FastAPI eliminiert 63% Latenz
NetBird + Mac Mini MLX + Disk-Cache 4–10s TTS über NetBird direkt an Mac Mini, Cache-Hits in 5ms
Mycroft + Nabu Cloud (Referenz) 3–5s Cloud-TTS ist 30x schneller als lokaler CPU-Decoder

Die zwei entscheidenden Optimierungen: Erstens, Gemma 4 mit --reasoning off starten — 15 Sekunden Denkzeit für "Das Licht ist an" sind absurd. Zweitens, den TTS-Server persistent laufen lassen statt pro Request einen Docker-Container zu starten. Modell-Laden dauert 4–42 Sekunden — bei einem persistenten FastAPI-Server entfällt das komplett.

Erkenntnisse

6 Lektionen aus dem Praxistest

#1

Die 500M-Mauer

XTTS, F5, Fish Speech: alle ~500M, alle "mittel"

Die drei populärsten Voice-Cloning-Modelle liegen alle im 500M-Parameterbereich und klingen auf Deutsch ähnlich mittelmäßig. Der Qualitätssprung kommt erst mit 1B+ Modellen — die brauchen aber GPU für Realtime.

#2

Piper ist VITS ist Tacotron2

Alle 4 Thorsten-Modelle klingen identisch

Piper, VITS, Tacotron2-DCA und Tacotron2-DDC klingen auf demselben Dataset praktisch gleich. Piper IST ein VITS-Derivat. Wer auf ein Piper-Upgrade hofft, wird enttäuscht — selbe Generation, selber Sound.

#3

Referenz-Audio entscheidet

F5-TTS: gruselig mit Piper-Ref, akzeptabel mit Human-Ref

Voice-Cloning-Modelle interpolieren die Artefakte der Referenz. Eine Piper-generierte Referenz erzeugt synthetischen Output. Echte menschliche Aufnahmen sind Pflicht.

#4

Apple MPS ≠ Apple MPS

M4 Pro: 0,2x RTF — M1: 1,0x RTF

Mit mlx-audio (4bit Qwen3-TTS) hat der M4 Pro einen 5-fachen Vorsprung vor dem M1 Mac Mini. Ein 11-Sekunden-Satz wird auf dem M4 in 2,3s generiert — fast 5x schneller als Realtime. Die GPU-Architekturen der beiden Apple-Chips unterscheiden sich bei Transformer-Workloads massiv.

#5

CPU-Threads: Weniger ist mehr

4 Threads: 4,3x — 16 Threads: 6,2x RTF

Autoregressive TTS-Decoder parallelisieren schlecht. 4–8 Threads sind optimal. 16 Threads erzeugen 40% mehr Overhead als Speedup.

#6

Der Bottleneck ist nicht TTS

Gemma 4 Think: 15,5s für "Das Licht ist an"

In unserer lokalen Voice-Pipeline war nicht TTS der größte Blocker, sondern der LLM mit aktiviertem Thinking. Mit --reasoning off: 0,8 Sekunden. Pipeline-Optimierung heißt: alle Stufen messen.

#7

"Klingt betrunken" war ein Format-Mismatch

Server sendet WAV, Client fragte MP3

Ein TTS der lokal perfekt klingt aber am Echo "betrunken" wirkt ist fast immer kein Qualitätsproblem. Home Assistant schickt im /v1/audio/speech Request `response_format: mp3`. Wer das im Server ignoriert und stumpf WAV-Bytes zurückliefert, lässt den Client die WAV-Samples als MP3 dekodieren — das Ergebnis klingt verzögert und verzerrt. Fix: ffmpeg on-demand Konvertierung, libmp3lame quality 4 genügt für Sprache.

#8

Die stillen Defaults von mlx-audio

`lang_code="de"` → auto → Englisch

mlx-audio akzeptiert nur `lang_code="german"` (full name), nicht den ISO-Code `"de"`. Kurze Codes fallen silent auf `"auto"` zurück und das Modell rät dann ein falsches Phonem-System — im Ernstfall spricht Dylan deutschen Text mit amerikanischem Akzent. Das gleiche gilt für `speed=1.25` — wird ignoriert, nur `instruct="speak at a quick pace"` wirkt.

Fazit

Unsere Empfehlung

Home-Assistant-Nutzer

Bleibt bei Nabu Casa Cloud TTS oder Piper. Lokale Premium-TTS auf Consumer-Hardware ist Stand April 2026 nicht praxistauglich für Live-Interaktion.

Experimentierfreudige

Qwen3-TTS 0.6B via pip install qwen-tts auf einem Mac mit M4 Pro. Speaker "Aiden" liefert das beste Deutsch.

Zukunft

GGUF-Konvertierungen von Qwen3-TTS (Vulkan via llama.cpp) und dedizierte NVIDIA-GPUs im Homelab könnten das Bild ändern.

Methodik

Alle Tests am 11./12. April 2026. Hardware: MacBook Pro M4 Pro (48 GB), Proxmox LXC CT 151 (AMD Ryzen 7 6800U, 16 Cores, 20 GB RAM, Radeon 680M iGPU), Mac Mini M1 (8 GB). Testtext: "Das ist ein Test. Die Temperatur im Wohnzimmer beträgt 22,5 Grad. Das Licht in der Küche ist aus." Alle Modelle mit Default-Parametern (seed=123 bei Qwen3-TTS). RTF-Werte sind Durchschnitte aus 2–3 Runs.