xAI hat Grok 4.3 veröffentlicht und die Preise spürbar gesenkt. Eine Million Token Kontext kosten 1,25 Dollar im Input, 2,50 Dollar im Output. Dazu kommt ein Voice-Cloning-Tool, das aus einer kurzen Sprachaufnahme eine produktionsreife Stimme erzeugt. Sprach-Agenten, automatisierter Kundensupport und mehrsprachige Produktvideos werden günstiger – und Stimmen-Fakes leichter.

Fasse den Artikel im Bullet-Stil zusammen.

Grok 4.3 – schneller, billiger, nicht klüger

Grok 4.3 läuft mit dauerhaft aktiviertem Reasoning, einem Kontextfenster von einer Million Token und einer Geschwindigkeit von rund 207 Token pro Sekunde. Im Artificial Analysis Intelligence Index erreicht das Modell 53 Punkte und liegt damit hinter GPT-5.5 (60) und Claude Opus 4.7 (57). xAI selbst vermarktet das Modell nicht als das klügste, sondern als das schnellste und günstigste. Die API kostet 1,25 Dollar pro Million Input-Token und 2,50 Dollar pro Million Output-Token, bei Anfragen über 200.000 Token gelten höhere Sätze (Quelle: VentureBeat ).

Im direkten Vergleich liegt Grok 4.3 damit etwa bei der Hälfte des GPT-5.5-Preises und einem Viertel des Opus-4.7-Preises. Dafür schreibt das Modell eine Standard-Antwort 2,4-mal schneller als GPT-5.5 und 3,5-mal schneller als Opus 4.7.

Voice-Cloning in 120 Sekunden – mit Verifikation

Parallel zu Grok 4.3 hat xAI Custom Voices gestartet. Entwickler nehmen rund eine Minute Sprache in der xAI-Konsole auf, das System erstellt daraus innerhalb von zwei Minuten eine einsetzbare Stimme. Die Stimme wird über eine voice_id in der Text-to-Speech-API und in der Voice-Agent-API genutzt.

xAI hat eine zweistufige Verifikation eingebaut: Der Sprecher liest eine Phrase vor, die das Speech-to-Text-Modul transkribiert und prüft. Anschließend werden Sprecher-Embeddings aus Verifikationsclip und Vollaufnahme verglichen. Damit lässt sich nur die eigene Stimme klonen – fremde Aufnahmen lehnt das System ab. Pro Team sind bis zu 30 Stimmen parallel möglich, die Klon-Stimmen bleiben auf das eigene Team beschränkt (Quelle: xAI ).

0,05 Dollar pro Minute – Sprachagent zum Discount-Tarif

Die neue Voice-Agent-API (grok-voice-think-fast-1.0) wird pauschal mit 3 Dollar pro Stunde abgerechnet, also 0,05 Dollar pro Minute Sprache-zu-Sprache. Die separate Text-to-Speech-API kostet 4,20 Dollar pro Million Zeichen, mit fünf Stimmen (Eve, Ara, Rex, Sal, Leo) und 28 Sprachen. Für Transkription stehen 0,20 Dollar pro Stunde im Streaming und 0,10 Dollar pro Stunde im Batch in Rechnung.

Damit unterbietet xAI ElevenLabs und OpenAI bei TTS (Text-to-Speech) pro Zeichen je nach Vergleich um 86 bis 92 Prozent. Wer bislang auf einen eigenen Sprach-Stack verzichtet hat, weil die Marge nicht passte, kann neu rechnen.

Was bedeutet das für Onlinehändler?

Sprach-Bots im Kundenservice waren bisher teuer. Mit 3 Dollar Stundenpreis und einer geklonten Markenstimme rückt der automatisierte Telefon-Support für KMU in Reichweite. Beispiel: Ein 24/7-Bot, der Bestellstatus, Rücksendungen und Standardfragen abdeckt, kostet bei 200 Gesprächsstunden im Monat rund 600 Dollar. Ein Mitarbeiter ist deutlich teurer.

Mehrsprachige Produktvideos sind der zweite Hebel. Statt jedes Video neu zu vertonen, generiert TTS die fremdsprachige Tonspur in der eigenen Stimme. Bei 28 Sprachen ist DACH plus EU-weite Märkte mit einem Workflow abgedeckt.

Stimmen-Fakes – das Risiko wandert ins Tagesgeschäft

Mit der Verfügbarkeit kommt das Missbrauchspotenzial. xAI verlangt zwar Verifikation, doch konkurrierende Tools ohne diese Hürde sind seit Jahren im Umlauf. Anrufe von vermeintlichen Lieferanten, Geschäftsführern oder Banken können jederzeit eine geklonte Stimme tragen.

Praxis-Empfehlung: Telefonische Freigaben für Überweisungen, Passwort-Resets oder Vertragsänderungen sind kein vertrauenswürdiger Kanal mehr. Wer Geld bewegt, braucht ein zweites Authentifizierungsmerkmal außerhalb des Telefons – Rückruf auf bekannte Nummer, Schriftform oder ein Codewort, das nie über die Leitung gesagt wird.

Was du jetzt tun solltest

Drei Schritte sind umsetzbar. Erstens: Prüfe, ob dein bestehender Sprachdienstleister beim Preis mitziehen kann. Bei einem Faktor 10 lohnt sich der Wechsel – auch wenn Grok 4.3 nicht das klügste Modell ist, reicht es für 80 Prozent der Standardfälle. Zweitens: Hinterlege im Team eine Anti-Voice-Fake-Regel. Keine Zahlungsfreigabe per Anruf, kein Passwort-Reset über die Stimme. Drittens: Bevor du selbst eine Marken-Stimme klonst, kläre intern, wer sie sprechen darf und was rechtlich beim Mitarbeiterwechsel passiert. Eine geklonte Stimme ist persönlichkeitsrechtlich heikel – ein Vertrag mit dem Sprecher gehört zwingend dazu.

Die Preise von xAI setzen den Markt unter Druck. ElevenLabs, Deepgram und OpenAI werden nachziehen müssen. Für Onlinehändler heißt das: günstigere Tools – und höhere Wachsamkeit am Telefon.

QR Code für die Wortfilter Händler Facebook-Gruppe
Komm in die Wortfilter Community auf Facebook und diskutiere mit

Melde dich zum wöchentlichen Newsletter an!