Aktualności Sprzęt i technologie OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

OpenAI wprowadza nowy model głosowy do budowy asystentów AI nowej generacji

Arkadiy Andrienko
Czytaj w pełnej wersji

OpenAI ogłosiło uruchomienie swojej usługi Realtime API, zasilanej nowym modelem gpt-realtime zaprojektowanym w celu tworzenia inteligentniejszych, bardziej responsywnych asystentów głosowych. Główną innowacją jest przetwarzanie dźwięku od początku do końca. W przeciwieństwie do tradycyjnych systemów, które przekształcają mowę na tekst, analizują ten tekst, a następnie generują robotyczną odpowiedź, gpt-realtime działa bezpośrednio z dźwiękiem. Takie podejście znacznie skraca czas reakcji i pozwala na znacznie dokładniejsze odwzorowanie intonacji, emocji i subtelnych niuansów naturalnej rozmowy.

Nowy model prezentuje poprawione zrozumienie kontekstu i potrafi z łatwością obsługiwać złożone instrukcje. Asystent zasilany tym modelem potrafi bezbłędnie dyktować liczby, czytać prawne zastrzeżenia dosłownie i płynnie przełączać się między językami w trakcie zdania. Nauczył się również rozpoznawać niewerbalne sygnały, takie jak śmiech czy pauzy, dostosowując ton rozmowy odpowiednio.

Model głosowy jest również multimodalny. Użytkownicy mogą wysyłać zrzuty ekranu lub zdjęcia, a asystent może je analizować i komentować. Ponadto model wspiera telefony SIP, otwierając drogę do integracji tych agentów głosowych z systemami PBX w firmach oraz standardowymi sieciami telefonicznymi.

Dostęp do Realtime API i modelu gpt-realtime jest teraz otwarty dla wszystkich deweloperów, chociaż nie będzie jeszcze udostępniony dla ogółu społeczeństwa ani zintegrowany z ChatGPT. Ta technologia bezpośredniego przekształcania mowy w mowę odpowiada na kluczowe niedociągnięcia obecnych asystentów głosowych — wolne czasy reakcji i robotyczną dostawę — przybliżając nas do ery, w której rozmowa z AI przez telefon lub w aplikacji będzie praktycznie nieodróżnialna od rozmowy z inną osobą.

To uruchomienie następuje po dość trudnym początku dla OpenAI w tym miesiącu. Wczesne wydanie piątej generacji bota ChatGPT na początku sierpnia spotkało się z mieszanymi recenzjami. Skargi użytkowników zmusiły firmę do szybkiego wprowadzenia poprawek do usługi, a nawet tymczasowego przywrócenia dostępu do poprzedniego modelu. Konkurencyjny krajobraz również się zaostrza; niedawno chiński startup DeepSeek zaprezentował swój zaktualizowany model DeepSeek-V3.1, który, jak twierdzą jego deweloperzy, jest 2,5 razy szybszy od swojego poprzednika, wspiera kontekst 128K tokenów i pozostaje całkowicie darmowy.

W obliczu technicznych potknięć GPT-5 i postępów konkurencji, OpenAI prawdopodobnie koncentruje się na udoskonalaniu swojego flagowego modelu i rozszerzaniu swojego ekosystemu, aby odzyskać zaufanie użytkowników i umocnić swoją pozycję na rynku.

    O autorze
    Komentarze0
    Zostawić komentarz