
Nowy model DeepSeek V3-0324 stawia wyzwanie GPT-4o i Claude-3.5

DeepSeek AI ogłosiło dużą aktualizację swojego flagowego modelu — DeepSeek V3-0324. Model, dostępny na GitHubie i Hugging Face, nie tylko dogania, ale także przewyższa zamknięte alternatywy takie jak GPT-4o i Claude-3.5-Sonnet w kilku kluczowych obszarach.
W centrum aktualizacji znajduje się ulepszona architektura Mixture-of-Experts (MoE), w której 671 miliardów parametrów jest dynamicznie aktywowanych w porcjach po 37 miliardów na token. Technologia Multi-head Latent Attention zmniejsza zużycie pamięci o 60%, podczas gdy Multi-Token Prediction zwiększa prędkość generowania tekstu o 1,8 razy. Model był trenowany na zbiorze danych obejmującym problemy matematyczne, kod w 15 językach oraz prace naukowe. Szkolenie zajęło 2,788 miliona godzin GPU na klastrach H800 — co odpowiada 318 latom ciągłej pracy na jednym akceleratorze. Rezultat: 89,3% dokładności w rozwiązywaniu problemów matematycznych na poziomie szkolnym (GSM8K) oraz 65,2% wskaźnika sukcesu w generowaniu kodu (HumanEval) — o 10–15% wyższy niż poprzednie rozwiązania open-source.
Aktualizacja przyniosła kilka niespodziewanych ulepszeń:
- Generowanie kodu frontendowego teraz produkuje estetyczne interfejsy;
- Jakość tekstu osiągnęła ludzką płynność w długich esejach;
- Dokładność wywoływania funkcji osiągnęła 92%, rozwiązując jeden z kluczowych problemów poprzednich wersji.
Chociaż oficjalne notatki aktualizacyjne nie zostały jeszcze wydane, rozmiar modelu wynosi podobno 700 GB. Jest dostępny przez API z unikalnym systemem „kalibracji temperatury”: standardowy parametr 1.0 jest automatycznie dostosowywany do optymalnego 0.3. Dla lokalnego wdrożenia deweloperzy otrzymują zmodyfikowane szablony zapytań z obsługą wyszukiwania w sieci i analizy plików — funkcja wcześniej dostępna tylko w komercyjnych rozwiązaniach premium.
Eksperci przewidują, że DeepSeek V3-0324 może zakłócić rynek asystentów AI do programowania i analizy danych. Jego dostępność jako open-source na licencji MIT otwiera drzwi do dostosowywania — od automatyzacji procesów biznesowych po tworzenie specjalistycznych asystentów naukowych.