
OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

OpenAI ogłosiło uruchomienie swojej usługi Realtime API, zasilanej nowym modelem gpt-realtime zaprojektowanym w celu tworzenia inteligentniejszych, bardziej responsywnych asystentów głosowych. Główną innowacją jest przetwarzanie dźwięku od początku do końca. W przeciwieństwie do tradycyjnych systemów, które przekształcają mowę na tekst, analizują ten tekst, a następnie generują robotyczną odpowiedź, gpt-realtime działa bezpośrednio z dźwiękiem. Takie podejście znacznie skraca czas reakcji i pozwala na znacznie dokładniejsze odwzorowanie intonacji, emocji i subtelnych niuansów naturalnej rozmowy.
Nowy model prezentuje poprawione zrozumienie kontekstu i potrafi z łatwością obsługiwać złożone instrukcje. Asystent zasilany tym modelem potrafi bezbłędnie dyktować liczby, czytać prawne zastrzeżenia dosłownie i płynnie przełączać się między językami w trakcie zdania. Nauczył się również rozpoznawać niewerbalne sygnały, takie jak śmiech czy pauzy, dostosowując ton rozmowy odpowiednio.
Model głosowy jest również multimodalny. Użytkownicy mogą wysyłać zrzuty ekranu lub zdjęcia, a asystent może je analizować i komentować. Ponadto model wspiera telefony SIP, otwierając drogę do integracji tych agentów głosowych z systemami PBX w firmach oraz standardowymi sieciami telefonicznymi.
Dostęp do Realtime API i modelu gpt-realtime jest teraz otwarty dla wszystkich deweloperów, chociaż nie będzie jeszcze udostępniony dla ogółu społeczeństwa ani zintegrowany z ChatGPT. Ta technologia bezpośredniego przekształcania mowy w mowę odpowiada na kluczowe niedociągnięcia obecnych asystentów głosowych — wolne czasy reakcji i robotyczną dostawę — przybliżając nas do ery, w której rozmowa z AI przez telefon lub w aplikacji będzie praktycznie nieodróżnialna od rozmowy z inną osobą.
To uruchomienie następuje po dość trudnym początku dla OpenAI w tym miesiącu. Wczesne wydanie piątej generacji bota ChatGPT na początku sierpnia spotkało się z mieszanymi recenzjami. Skargi użytkowników zmusiły firmę do szybkiego wprowadzenia poprawek do usługi, a nawet tymczasowego przywrócenia dostępu do poprzedniego modelu. Konkurencyjny krajobraz również się zaostrza; niedawno chiński startup DeepSeek zaprezentował swój zaktualizowany model DeepSeek-V3.1, który, jak twierdzą jego deweloperzy, jest 2,5 razy szybszy od swojego poprzednika, wspiera kontekst 128K tokenów i pozostaje całkowicie darmowy.
W obliczu technicznych potknięć GPT-5 i postępów konkurencji, OpenAI prawdopodobnie koncentruje się na udoskonalaniu swojego flagowego modelu i rozszerzaniu swojego ekosystemu, aby odzyskać zaufanie użytkowników i umocnić swoją pozycję na rynku.
-
OpenAI wprowadza GPT-5 dla wszystkich: natychmiastowe kodowanie i mniej błędów
-
Altmanowski OpenAI AI pokonuje Grok Muska 4-0 w finałach szachowych Kaggle
-
OpenAI zgadza się przywrócić GPT-4o po nieudanym uruchomieniu GPT-5, wydaje pierwszą poprawkę
-
Sztuczna inteligencja OpenAI zdobywa czołową szóstkę programistów na świecie podczas IOI 2025
-
OpenAI wzmacnia prywatność ChatGPT: Szyfrowanie czatu w opracowaniu