Zwei unterschiedliche Strategien für schnelle LLM Inference und High Speed KI Modell Ausführung

Anthropic und OpenAI haben kürzlich beide einen „Fast Mode“ angekündigt – eine Möglichkeit, mit ihrem jeweils besten Coding-Modell bei deutlich höheren Geschwindigkeiten zu interagieren.

Diese beiden Versionen des Fast Mode unterscheiden sich erheblich. Anthropic bietet bis zu 2,5× Tokens pro Sekunde, also etwa 170 statt 65 bei Opus 4.6. OpenAI bietet mehr als 1000 Tokens pro Sekunde statt 65 Tokens pro Sekunde bei GPT-5.3-Codex, also etwa das 15-Fache. OpenAIs Fast Mode ist damit ungefähr sechsmal schneller als der von Anthropic.

Der große Vorteil von Anthropic besteht jedoch darin, dass sie ihr tatsächliches Modell ausliefern. Wenn man ihren Fast Mode verwendet, erhält man echtes Opus 4.6. Bei OpenAIs Fast Mode erhält man hingegen GPT-5.3-Codex-Spark und nicht das eigentliche GPT-5.3-Codex. Spark ist tatsächlich deutlich schneller, aber ein merklich weniger leistungsfähiges Modell. Es ist für viele Aufgaben ausreichend gut, wird jedoch verwirrt und macht Fehler bei Tool-Calls in einer Weise, wie es das reguläre GPT-5.3-Codex niemals tun würde.

Warum diese Unterschiede? Die KI-Labore veröffentlichen keine Details darüber, wie ihre Fast Modes funktionieren. Ich bin jedoch ziemlich sicher, dass es ungefähr so ist: Anthropics Fast Mode basiert auf Low-Batch-Size-Inference, während OpenAIs Fast Mode auf speziellen Hochleistungs-Chips von Cerebras basiert. Lassen Sie mich das näher erläutern.

Wie Anthropics Fast Mode funktioniert: Low-Batch-Size-Inference und Latenzoptimierung

Der zentrale Trade-off in der Ökonomie der KI-Inference ist das Batching, da der Hauptengpass der Speicher ist. GPUs sind sehr schnell, aber das Verschieben von Daten auf eine GPU ist es nicht. Jede Inference-Operation erfordert, dass alle Tokens des User-Prompts auf die GPU kopiert werden, bevor die Inference starten kann. Das Zusammenfassen mehrerer Nutzer in einem Batch erhöht den Gesamtdurchsatz, führt jedoch dazu, dass einzelne Nutzer warten müssen, bis der Batch gefüllt ist.

Eine hilfreiche Analogie ist ein Bussystem. Wenn es keinerlei Batching für Fahrgäste gäbe – also wenn jedes Mal, wenn jemand in einen Bus einsteigt, dieser sofort losfahren würde –, wären die Fahrzeiten für diese Person deutlich kürzer. Allerdings wäre der Gesamtdurchsatz erheblich geringer, da andere Personen möglicherweise lange an der Haltestelle warten müssten, bis sie tatsächlich einsteigen können.

Anthropics Fast Mode ist im Wesentlichen eine Art Buspass, der garantiert, dass der Bus sofort losfährt, sobald man eingestiegen ist. Er kostet das Sechsfache, da man effektiv für alle anderen Personen zahlt, die ebenfalls hätten einsteigen können. Er ist jedoch deutlich schneller, da keine Wartezeit entsteht, bis der Bus abfährt.

Natürlich kann ich nicht mit absoluter Sicherheit sagen, dass dies zutrifft. Vielleicht verfügen sie über neue ultrafast Compute-Ressourcen oder nutzen einen algorithmischen Trick, an den sonst niemand gedacht hat. Aber ich halte es für sehr wahrscheinlich. Brandneue Hardware oder algorithmische Tricks würden vermutlich Modelländerungen erfordern (siehe unten bei OpenAIs System), und „sechsmal teurer für 2,5× schneller“ liegt genau im erwartbaren Bereich, wenn man in ein Low-Batch-Size-Regime wechselt.

Wie OpenAIs Fast Mode funktioniert: Cerebras-Chips und In-Memory-Inference

OpenAIs Fast Mode funktioniert nicht auf diese Weise. Das erkennt man bereits daran, dass sie ein neues, schwächeres Modell dafür einführen. Es gäbe keinen Grund, dies zu tun, wenn lediglich die Batch-Größe angepasst würde. Zudem wurde im Ankündigungs-Blogpost explizit erwähnt, was den Fast Mode antreibt: Cerebras.

OpenAI kündigte seine Partnerschaft mit Cerebras im Januar an. Was ist Cerebras? Das Unternehmen baut „ultra low latency compute“. In der Praxis bedeutet das, dass extrem große Chips hergestellt werden. Ein H100-Chip – nahe an der Spitze aktueller Inference-Chips – ist etwas mehr als ein Quadratzoll groß. Ein Cerebras-Chip misst hingegen etwa 70 Quadratzoll.

Auf Bildern erkennt man ein Gitter- und Lochmuster auf dem Cerebras-Chip. Das liegt daran, dass Silizium-Wafer dieser Größe normalerweise in Dutzende einzelne Chips zerteilt werden. Cerebras ätzt stattdessen einen einzigen gigantischen Chip über die gesamte Fläche.

Je größer der Chip, desto mehr internen Speicher kann er enthalten. Die Idee besteht darin, einen Chip mit ausreichend großem SRAM zu haben, sodass das gesamte Modell hineinpasst und die Inference vollständig im Speicher stattfinden kann. Typischerweise wird GPU-SRAM in Dutzenden Megabyte gemessen. Das bedeutet, dass ein großer Teil der Inference-Zeit damit verbracht wird, Teile der Modellgewichte von außerhalb des SRAM in die GPU-Compute-Einheiten zu streamen. Wenn all dies direkt aus dem deutlich schnelleren SRAM gestreamt werden könnte, würde die Inference erheblich beschleunigt, tatsächlich um etwa das Fünfzehnfache.

Wie viel internen Speicher besitzt der neueste Cerebras-Chip? 44 GB. Das bringt OpenAI in eine etwas schwierige Lage. 44 GB reichen aus, um ein kleineres Modell unterzubringen – etwa 20B Parameter bei FP16 oder rund 40B Parameter bei INT8-Quantisierung, aber eindeutig nicht genug für GPT-5.3-Codex. Deshalb wird ein völlig neues Modell angeboten, und deshalb hat das Spark-Modell einen gewissen „Small-Model-Geruch“. Es handelt sich um ein kleineres Distill des deutlich größeren GPT-5.3-Codex-Modells.

Technische Bewertung: Zwei radikal unterschiedliche Ansätze für High-Performance-LLM-Inference

Es ist bemerkenswert, dass die beiden großen Labore sehr unterschiedliche Ansätze für schnelle KI-Inference verfolgen. Wenn ich eine spekulative Theorie formulieren müsste, würde sie etwa so aussehen:

OpenAI geht Mitte Januar eine Partnerschaft mit Cerebras ein, offensichtlich um ein OpenAI-Modell auf einem schnellen Cerebras-Chip zu betreiben.
Anthropic hat keine vergleichbare Option, weiß jedoch, dass OpenAI im Februar eine extrem schnelle Inference ankündigen wird, und möchte ebenfalls im Nachrichtenzyklus präsent sein.
Anthropic arbeitet daher intensiv daran, die schnellste Inference bereitzustellen, die mit ihrem bestehenden Stack möglich ist – nämlich durch Reduktion der Batch-Größe.
Anthropic wartet wahrscheinlich bis kurz vor Abschluss der komplexeren Cerebras-Implementierung von OpenAI mit der eigenen Ankündigung, sodass es so aussieht, als hätte OpenAI sie kopiert.

Offensichtlich ist OpenAIs Leistung hier technisch beeindruckender. Ein Modell auf Cerebras-Chips lauffähig zu machen, ist nicht trivial, da diese architektonisch sehr ungewöhnlich sind. Ein 20B- oder 40B-Parameter-Distill von GPT-5.3-Codex zu trainieren, das dennoch „gut genug“ ist, ist ebenfalls nicht trivial. Dennoch gebührt Anthropic Anerkennung für eine clevere Strategie, um in der öffentlichen Wahrnehmung nicht zurückzustehen.

Ist schnelle KI-Inference der nächste große Trend?

Wenn man sieht, dass beide großen Labore dieses Feature veröffentlichen, könnte man denken, dass schnelle KI-Inference nun das zentrale Ziel ist. Ich glaube jedoch nicht, dass dies der Fall ist.

Wenn meine Theorie zutrifft, interessiert sich Anthropic nicht primär für schnelle Inference, sondern wollte lediglich nicht hinter OpenAI zurückstehen. Und OpenAI erforscht vor allem die Möglichkeiten der neuen Cerebras-Partnerschaft. Es ist weiterhin offen, welche Modelle tatsächlich auf diese riesigen Chips passen, wie nützlich diese Modelle sein werden und ob die zugrunde liegende Ökonomie sinnvoll ist.

Persönlich halte ich „schnelle, aber weniger leistungsfähige Inference“ nicht für besonders nützlich. Ich habe damit in Codex experimentiert und bin nicht überzeugt. Der Nutzen von KI-Agenten wird vor allem dadurch bestimmt, wie wenige Fehler sie machen – nicht durch ihre reine Geschwindigkeit. Sechsmal höhere Geschwindigkeit zu einem Preis von 20 % mehr Fehlern ist ein schlechter Tausch, da der Großteil der Nutzerzeit in der Fehlerbehebung statt im Warten auf das Modell verbracht wird.

Dennoch ist es durchaus möglich, dass schnelle, weniger leistungsfähige Inference zu einem grundlegenden Low-Level-Primitive in KI-Systemen wird. Claude Code verwendet bereits Haiku für bestimmte Operationen. Vielleicht wird OpenAI Spark in ähnlicher Weise einsetzen.

Zwei unterschiedliche Strategien für schnelle LLM Inference

Zwei unterschiedliche Strategien für schnelle LLM Inference und High Speed KI Modell Ausführung

Wie Anthropics Fast Mode funktioniert: Low-Batch-Size-Inference und Latenzoptimierung

Wie OpenAIs Fast Mode funktioniert: Cerebras-Chips und In-Memory-Inference

Technische Bewertung: Zwei radikal unterschiedliche Ansätze für High-Performance-LLM-Inference

Ist schnelle KI-Inference der nächste große Trend?

Eingestellt von Ravindu Ramesh Perera

Kommentar veröffentlichen

0 Kommentare

Most Popular

Tags

Categories

Post History Archive

Missbrauch melden

Dieses Blog durchsuchen

Footer Menu Widget

Contact form

Zwei unterschiedliche Strategien für schnelle LLM Inference

Zwei unterschiedliche Strategien für schnelle LLM Inference und High Speed KI Modell Ausführung

Wie Anthropics Fast Mode funktioniert: Low-Batch-Size-Inference und Latenzoptimierung

Wie OpenAIs Fast Mode funktioniert: Cerebras-Chips und In-Memory-Inference

Technische Bewertung: Zwei radikal unterschiedliche Ansätze für High-Performance-LLM-Inference

Ist schnelle KI-Inference der nächste große Trend?

Eingestellt von Ravindu Ramesh Perera

Diese Posts könnten dir gefallen

Kommentar veröffentlichen

0 Kommentare

Most Popular

Tags

Categories

Post History Archive

Missbrauch melden

Dieses Blog durchsuchen

Footer Menu Widget

Contact form