Post by Thomas Huber

ud.works | less but better

Lokales Inferencing auf GPT-4o Niveau ist mit den Gemma-4-Modellen von Google keine Zukunftsmusik mehr. Dank QAT mit 8-Bit-Quantisierung und MTP Speculative Decoding laufen Gemma-4-12B, 26B-MoE und 31B-Dense auf Workstation-GPUs wie der Intel Arc B60 und B70 mit ca. 30-90 tok/sec absolut brauchbar. Sie können direkt für automatisierte Prozesse eingesetzt werden, bei denen Datenschutz und IT-Sicherheit kritisch sind. Man muss das Ganze aber realistisch einordnen: Diese kleineren Modelle sind den gigantischen, speicherhungrigen Frontier-Modellen bei extrem komplexen, akademischen Fragestellungen oder tiefem Spezialwissen strukturell unterlegen. Das müssen sie aber auch gar nicht sein. Für 90 % der alltäglichen Aufgaben, strukturierten Prozesse, RAG-Systeme und agentischen Workflows im Unternehmen sind die Fähigkeiten absolut ausreichend – und genau hier spielen sie ihre Stärken aus. Die Leistung steht: Das 31B Dense-Modell zieht bei Standard-Metriken mit GPT-4o (Mai 2024) gleich. Das 26B MoE liefert durch die MoE-Architektur bei minimalem Compute-Footprint eine extrem hohe Execution-Geschwindigkeit. Das 12B-Dense-Modell arbeitet bereits mit 256k Kontext und multimodalem Audio-Input. Workstation statt Serverfarm: Mit dem passenden Open-Source-Stack (vLLM, llama.cpp, OpenVINO) laufen die Modelle hervorragend auf lokaler Workstation-Hardware abseits der Enterprise-Serverräume – stabil unter dem Schreibtisch oder im eigenen Rack. Der Aufwand: Ja, es ist aktuell noch ziemlich viel Gefrickel, um die Modelle stabil laufen zu lassen. Es braucht saubere Konfiguration und Testing. Aber hier hat sich in den letzten Monaten extrem viel getan. Der eigentliche Hebel: Für Branchen mit strikten Compliance- und Datenschutzvorgaben (Legal, Medical, Core-Business) löst das das größte Problem der letzten Jahre. Es bleiben schlicht keine Fragen beim Datenschutz mehr offen. Komplette Datensouveränität, null Datenabfluss, berechenbare Kosten. Lokal betriebene LLMs sind für produktive Prozesse ab jetzt gesetzt. Die Technologie ist reif. Man muss es nur noch bauen. Ausblick: Auch Gemma 4 wird irgendwann durch noch leistungsfähigere Modelle mit ähnlichen Systemanforderungen abgelöst. Modelle in dieser Gewichtsklasse hinken den großen Frontiermodellen in Sachen Leistung nur noch ca. 18 Monate hinterher... Exciting times ahead. #ArtificialIntelligence #OpenSource #vLLM #llamacpp #OpenVino #DataPrivacy #LocalInference #Engineering