Utwórz
Nowy algorytm Google zmniejsza zużycie pamięci sześciokrotnie. Czy drogi sprzęt jest skazany na zagładę?

Nowy algorytm Google zmniejsza zużycie pamięci sześciokrotnie. Czy drogi sprzęt jest skazany na zagładę?

Arkadiy Andrienko

Google Research opublikowało artykuł na temat TurboQuant, algorytmu, który zmniejsza pamięć wymaganą do zadań AI co najmniej sześciokrotnie, wszystko to bez kompromisów w dokładności odpowiedzi i bez potrzeby dodatkowego szkolenia modelu.

Podczas generowania tekstu modele polegają na tzw. pamięci KV—buforze pamięci, który przechowuje wcześniej obliczone dane mechanizmu uwagi, co pozwala im uniknąć ponownego obliczania ich na każdym kroku. Jednak im dłuższe okno kontekstowe, tym bardziej ta pamięć rośnie. W pewnym momencie zaczyna zajmować dziesiątki gigabajtów pamięci, a nawet potężne karty graficzne z dużą ilością VRAM pozostają bezsilne. Tradycyjne metody kwantyzacji były od dawna stosowane do kompresji pamięci, ale mają ukryty minus: wraz z skompresowanymi danymi musisz również przechowywać tzw. stałe kwantyzacji—w zasadzie tabelę wyszukiwania, podobnie jak to, co używają archiwizatory ZIP lub RAR.

Badacze przetestowali TurboQuant na modelach open-source, takich jak Gemma i Mistral, używając zestawów benchmarkowych o długim kontekście, takich jak LongBench, Needle In A Haystack, ZeroSCROLLS, RULER i L-Eval. W prostych zadaniach algorytm dostarczył bezbłędne wyniki, zmniejszając rozmiar pamięci KV co najmniej sześciokrotnie. W bardziej złożonych scenariuszach—takich jak odpowiadanie na pytania, generowanie kodu i streszczanie—margines nie był tak dramatyczny, ale nadal przewyższał istniejący algorytm kompresji KIVI. Na akceleratorach NVIDIA H100, 4-bitowa wersja TurboQuant wykazała ośmiokrotny wzrost wydajności.

Rynek już zareagował na ogłoszenie, a akcje głównych producentów pamięci spadły—odzwierciedlając zmianę w oczekiwaniach inwestorów. Jeśli powszechne przyjęcie TurboQuant obniży wymagania dotyczące VRAM, firmy mogą albo obniżyć koszty sprzętu , albo rozszerzyć okna kontekstowe modeli bez potrzeby zwiększania mocy obliczeniowej.

New Google algorithm cuts memory usage sixfold. Is expensive hardware doomed?

Autorzy badania podkreślają, że ich praca to nie tylko inżynieryjne rozwiązanie—jest to sposób na ograniczenie zużycia pamięci w czasach, gdy pamięć staje się coraz bardziej deficytowa.

Czy algorytm taki jak ten może naprawdę pomóc zakończyć "kryzys pamięci" na rynku, czy niedobór pozostanie problemem dla codziennych użytkowników, niezależnie od tego, jakie sztuczki programowe zostaną zastosowane? Podziel się swoimi przemyśleniami w komentarzach.

    O autorze
    Komentarze0