1 Trillion Parameter lokal: AMD zeigt, wie man Monster-KIs ohne Cloud betreibt
AMD hat gerade bewiesen, dass die Cloud überbewertet ist. Mit vier Framework Desktops – ausgestattet mit Ryzen AI Max+ 395 und je 128GB RAM – läuft Moonshots Kimi K2.5, ein Ein-Billionen-Parameter-Modell, komplett lokal. Keine Azure-Rechnung. Keine AWS-Credits. Einfach vier Rechner und ein bisschen Ethernet.
Die technische Magie dahinter: llama.cpp mit ROCm-Support und RPC-Verteilung über mehrere Nodes. Jeder Rechner stellt 120GB VRAM bereit – zusammen 480GB. Genug für das 375GB schwere Kimi K2.5 im komprimierten Q2_K_XL Format. Die Kommunikation läuft über 5Gbps Ethernet, was überraschend gut funktioniert.
Der Trick liegt im TTM-Kernel-Parameter: Mit 'amdgpu.gttsize=120000' kann Linux den gesamten System-RAM als GPU-Speicher nutzen. Das ist elegant, das ist hackig, und es funktioniert. AMD liefert sogar ein vorgebautes SDK – den Lemonade SDK – für Plug-and-Play-Setup.
Warum das wichtig ist: Ein-Billionen-Parameter-Modelle waren bisher nur für Tech-Giganten mit Datacenter-Budgets zugänglich. Jetzt kann theoretisch jeder mit ~$20.000 für vier High-End-Workstations das gleiche Level erreichen. Die Demokratisierung der KI macht einen Riesensprung.