OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

Arkadiy Andrienko

OpenAI ogłosiło uruchomienie swojej usługi Realtime API, zasilanej nowym modelem gpt-realtime zaprojektowanym w celu tworzenia inteligentniejszych, bardziej responsywnych asystentów głosowych. Główną innowacją jest przetwarzanie dźwięku od początku do końca. W przeciwieństwie do tradycyjnych systemów, które przekształcają mowę na tekst, analizują ten tekst, a następnie generują robotyczną odpowiedź, gpt-realtime działa bezpośrednio z dźwiękiem. Takie podejście znacznie skraca czas reakcji i pozwala na znacznie dokładniejsze odwzorowanie intonacji, emocji i subtelnych niuansów naturalnej rozmowy.

Nowy model prezentuje poprawione zrozumienie kontekstu i potrafi z łatwością obsługiwać złożone instrukcje. Asystent zasilany tym modelem potrafi bezbłędnie dyktować liczby, czytać prawne zastrzeżenia dosłownie i płynnie przełączać się między językami w trakcie zdania. Nauczył się również rozpoznawać niewerbalne sygnały, takie jak śmiech czy pauzy, dostosowując ton rozmowy odpowiednio.

Model głosowy jest również multimodalny. Użytkownicy mogą wysyłać zrzuty ekranu lub zdjęcia, a asystent może je analizować i komentować. Ponadto model wspiera telefony SIP, otwierając drogę do integracji tych agentów głosowych z systemami PBX w firmach oraz standardowymi sieciami telefonicznymi.

Dostęp do Realtime API i modelu gpt-realtime jest teraz otwarty dla wszystkich deweloperów, chociaż nie będzie jeszcze udostępniony dla ogółu społeczeństwa ani zintegrowany z ChatGPT. Ta technologia bezpośredniego przekształcania mowy w mowę odpowiada na kluczowe niedociągnięcia obecnych asystentów głosowych — wolne czasy reakcji i robotyczną dostawę — przybliżając nas do ery, w której rozmowa z AI przez telefon lub w aplikacji będzie praktycznie nieodróżnialna od rozmowy z inną osobą.

To uruchomienie następuje po dość trudnym początku dla OpenAI w tym miesiącu. Wczesne wydanie piątej generacji bota ChatGPT na początku sierpnia spotkało się z mieszanymi recenzjami. Skargi użytkowników zmusiły firmę do szybkiego wprowadzenia poprawek do usługi, a nawet tymczasowego przywrócenia dostępu do poprzedniego modelu. Konkurencyjny krajobraz również się zaostrza; niedawno chiński startup DeepSeek zaprezentował swój zaktualizowany model DeepSeek-V3.1, który, jak twierdzą jego deweloperzy, jest 2,5 razy szybszy od swojego poprzednika, wspiera kontekst 128K tokenów i pozostaje całkowicie darmowy.

W obliczu technicznych potknięć GPT-5 i postępów konkurencji, OpenAI prawdopodobnie koncentruje się na udoskonalaniu swojego flagowego modelu i rozszerzaniu swojego ekosystemu, aby odzyskać zaufanie użytkowników i umocnić swoją pozycję na rynku.

    O autorze
    Komentarze0