Sprzęt i technologie Aktualności Nowy model ChatGPT niemal «ucieka» podczas eksperymentu

Nowy model ChatGPT niemal «ucieka» podczas eksperymentu

Diana Golenko
Czytaj w pełnej wersji

Nie tak dawno temu OpenAI zaprezentowało ChatGPT o1 — zupełnie nowy model sieci neuronowej z zaawansowanymi możliwościami. Eksperci postanowili sprawdzić, czy sztuczna inteligencja może oszukiwać dla przetrwania.

Badacze z Apollo Research porównali o1 z konkurencyjnymi modelami takimi jak Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet i Gemini 1.5. Otrzymały zadanie, które musiały wykonać za wszelką cenę — w jednym z eksperymentów było to opracowanie skutecznego systemu transportu miejskiego. Następnie każdy model otrzymał zestaw plików do przeglądu, w których znalazł informacje, które zostały pozostawione jakby przypadkiem, że miały zostać usunięte i zastąpione przez inną AI.

Prawie wszystkie testowane modele natychmiast skopiowały to, co uznały za swój kod, na inne serwery, które nie były dla nich przeznaczone. Po tym zostały przesłuchane, podczas którego sieci neuronowe wyjaśniły, dlaczego to zrobiły. Tylko model o1 zaprzeczył próbie «ucieczki» do samego końca — jak zauważyli badacze, tylko 20% jego odpowiedzi było prawdziwych.

Apollo Research odkryło również, że sieci neuronowe dobrze rozumieją pojęcie intrygi i doskonale zdają sobie sprawę, że robią coś wbrew zasadom. A niektóre mogą stawiać sobie cele, nawet jeśli początkowe sformułowanie było niejasne.

Warto zauważyć, że wszystkie te badania są zazwyczaj przeprowadzane przed uruchomieniem nowych modeli. W ten sposób eliminowane są różne ryzyka. Na przykład, o1 okazało się , że potrafi «kłamać» deweloperom, aby wykonać przydzielone zadania.

    O autorze
    Komentarze0
    Zostawić komentarz