Aktualności Sprzęt i technologie OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

29 sierpnia 2025, 18:04

OpenAI ogłosiło uruchomienie swojej usługi Realtime API, zasilanej nowym modelem gpt-realtime zaprojektowanym w celu tworzenia inteligentniejszych, bardziej responsywnych asystentów głosowych. Główną innowacją jest przetwarzanie dźwięku od początku do końca. W przeciwieństwie do tradycyjnych systemów, które przekształcają mowę na tekst, analizują ten tekst, a następnie generują robotyczną odpowiedź, gpt-realtime działa bezpośrednio z dźwiękiem. Takie podejście znacznie skraca czas reakcji i pozwala na znacznie dokładniejsze odwzorowanie intonacji, emocji i subtelnych niuansów naturalnej rozmowy.

Nowy model prezentuje poprawione zrozumienie kontekstu i potrafi z łatwością obsługiwać złożone instrukcje. Asystent zasilany tym modelem potrafi bezbłędnie dyktować liczby, czytać prawne zastrzeżenia dosłownie i płynnie przełączać się między językami w trakcie zdania. Nauczył się również rozpoznawać niewerbalne sygnały, takie jak śmiech czy pauzy, dostosowując ton rozmowy odpowiednio.

Model głosowy jest również multimodalny. Użytkownicy mogą wysyłać zrzuty ekranu lub zdjęcia, a asystent może je analizować i komentować. Ponadto model wspiera telefony SIP, otwierając drogę do integracji tych agentów głosowych z systemami PBX w firmach oraz standardowymi sieciami telefonicznymi.

Dostęp do Realtime API i modelu gpt-realtime jest teraz otwarty dla wszystkich deweloperów, chociaż nie będzie jeszcze udostępniony dla ogółu społeczeństwa ani zintegrowany z ChatGPT. Ta technologia bezpośredniego przekształcania mowy w mowę odpowiada na kluczowe niedociągnięcia obecnych asystentów głosowych — wolne czasy reakcji i robotyczną dostawę — przybliżając nas do ery, w której rozmowa z AI przez telefon lub w aplikacji będzie praktycznie nieodróżnialna od rozmowy z inną osobą.

To uruchomienie następuje po dość trudnym początku dla OpenAI w tym miesiącu. Wczesne wydanie piątej generacji bota ChatGPT na początku sierpnia spotkało się z mieszanymi recenzjami. Skargi użytkowników zmusiły firmę do szybkiego wprowadzenia poprawek do usługi, a nawet tymczasowego przywrócenia dostępu do poprzedniego modelu. Konkurencyjny krajobraz również się zaostrza; niedawno chiński startup DeepSeek zaprezentował swój zaktualizowany model DeepSeek-V3.1, który, jak twierdzą jego deweloperzy, jest 2,5 razy szybszy od swojego poprzednika, wspiera kontekst 128K tokenów i pozostaje całkowicie darmowy.

W obliczu technicznych potknięć GPT-5 i postępów konkurencji, OpenAI prawdopodobnie koncentruje się na udoskonalaniu swojego flagowego modelu i rozszerzaniu swojego ekosystemu, aby odzyskać zaufanie użytkowników i umocnić swoją pozycję na rynku.

Post został przetłumaczony Pokaż oryginał (EN)

Aktualności Sprzęt i technologie OpenAI

O autorze

Arkadiy Andrienko

Autor artykułów i wiadomości

Jako dziennikarz techniczny w VGTimes, z równą przyjemnością dyskutuję o najnowszych procesorach graficznych i zagłębiam się w niuanse klasycznych RPG. Od 2018 roku piszę o grach i sprzęcie, moje doświadczenie w dziedzinie dźwięku pozwoliło mi dobrze rozumieć niuanse technologii audio, a ja zawsze poszukuję czegoś nowego w dziedzinie sprzętu gamingowego. Kiedy nie piszę o technologiach, prawdopodobnie eksploruję postapokaliptyczne pustkowia w Fallout, zarządzam kolonią w RimWorld lub dowodzę armiami w Hearts of Iron IV. Dla mnie gry to więcej niż tylko hobby — to pasja, która napędza mój twórczy potencjał i utrzymuje połączenie z nieustannie rozwijającym się światem technologii.

...Rozwiń

Komentarze0