
Badanie ujawnia zadania, w których AI dorównuje wydajności człowieka

OpenAI przeprowadziło szerokie badanie, aby ocenić, jak dobrze nowoczesne sieci neuronowe radzą sobie z rzeczywistymi zadaniami zawodowymi. Wyniki wskazują, że sztuczna inteligencja może już wykonywać niektóre funkcje na poziomie doświadczonych pracowników w dziesiątkach zawodów.
Eksperyment, nazwany GDPval, obejmował 220 zadań w 44 różnych zawodach. Profesjonaliści w tych dziedzinach sami oceniali, jak skutecznie modele AI radziły sobie z pracą, którą wykonują na co dzień. Wśród tych zawodów byli agenci nieruchomości, prawnicy, inżynierowie, programiści, farmaceuci i doradcy finansowi.
Badanie wykazało, że sieci neuronowe najlepiej radzą sobie z rutynowymi, dobrze zdefiniowanymi zadaniami. Na przykład, AI może już tworzyć materiały marketingowe, analizować dane rynkowe, pomagać w przygotowywaniu wstępnych dokumentów prawnych lub przetwarzać obrazy medyczne. Co ciekawe, w tej nieformalnej rywalizacji modeli, liderem nie był produkt OpenAI. Najwyżej ocenianym modelem przez ekspertów był Claude Opus 4.1 z Anthropic, a tuż za nim znalazł się GPT-5.
Bardziej zaawansowana wersja GPT-5 wygenerowała wyniki, które eksperci ocenili jako równe lub lepsze od pracy ludzkiej w 40% przypadków. W przeciwieństwie do tego, poprzednia generacja, GPT-4o, osiągnęła ten wynik tylko w 13,7% zadań. OpenAI podkreśla, że nie chodzi o całkowite zastąpienie ludzi, ale raczej o rolę AI w wspieraniu pracowników, gdzie maszyny mogą wykonywać niektóre powtarzalne zadania szybciej i taniej, uwalniając profesjonalistów do skupienia się na bardziej złożonych sprawach.
Główną przeszkodą w powszechnym wdrożeniu pozostają tzw. "halucynacje AI"—przypadki, w których sieć neuronowa produkuje niewiarygodne lub wymyślone informacje. Jest to szczególnie zauważalne w długich i skomplikowanych projektach, gdzie ludzki nadzór jest nadal niezbędny. Jedno jest pewne: AI nie jest już tylko zabawką; stała się narzędziem, które zmienia zasady gry i może służyć jako cenne wsparcie dla ludzi w wielu dziedzinach zawodowych.
-
OpenAI wprowadza weryfikację wieku w ChatGPT
-
Dlaczego AI halucynuje: OpenAI wyjaśnia podstawową przyczynę konfabulacji sieci neuronowych
-
OpenAI uruchamia bibliotekę ponad 300 podpowiedzi AI dla różnych zawodów
-
Sztuczna inteligencja OpenAI zdobywa czołową szóstkę programistów na świecie podczas IOI 2025
-
NVIDIA zainwestuje 100 miliardów dolarów w infrastrukturę obliczeniową OpenAI