Nowa sztuczna inteligencja ożywia nieruchome zdjęcia, tworząc ruchome światy

Nowa sztuczna inteligencja ożywia nieruchome zdjęcia, tworząc ruchome światy

Arkadiy Andrienko

Chiński gigant technologiczny Tencent zaprezentował fascynujące nowe narzędzie dla twórców treści: model AI o nazwie HunyuanWorld-Voyager. To narzędzie może generować krótki film z zaledwie jednego statycznego obrazu, tworząc przekonującą iluzję ruchu kamery w obrębie sceny.

W przeciwieństwie do standardowych generatorów wideo, takich jak Sora, które zasadniczo malują sekwencję wiarygodnych klatek, Voyager koncentruje się na utrzymaniu spójności przestrzennej. Oznacza to, że gdy kamera "przesuwa się" do przodu lub na boki, obiekty na obrazie nie unoszą się ani nie deformują w sposób przypadkowy. Zamiast tego zachowują swoje proporcje i pozycję, tak jak w prawdziwym środowisku 3D.

Użytkownik przesyła dowolny obraz — na przykład zdjęcie wnętrza pokoju lub krajobrazu. Następnie definiuje trajektorię, którą ma podążać wirtualna kamera, a system generuje 49 klatek (około 2 sekundy wideo), które można połączyć w dłuższe sekwencje.

Kluczową cechą tej technologii jest jednoczesne generowanie zarówno kolorowego wideo, jak i danych głębokości na każdą klatkę. Umożliwia to przekształcenie wyniku w chmurę punktów 3D do dalszego modelowania, co może być niezwykle przydatne w rozwoju gier. Jednak model nie tworzy prawdziwej przestrzeni 3D; umiejętnie ją naśladuje. Z tego powodu może produkować błędy w dłuższych sekwencjach lub podczas próby pełnego obrotu o 360 stopni.

Największą przeszkodą w powszechnym przyjęciu jest wymóg sprzętowy. Aby uruchomić model nawet w jego minimalnej jakości (540p), wymagana jest karta graficzna z co najmniej 60 GB VRAM. Dla stabilnych wyników zaleca się karty 80 GB — takie rozwiązania są zarówno drogie, jak i rzadkie.

Model jest formalnie dostępny na Hugging Face, ale jego licencja zabrania użycia w Unii Europejskiej, Wielkiej Brytanii i Korei Południowej. Duże firmy komercyjne z publicznością liczącą ponad 100 milionów użytkowników będą również potrzebować osobnej umowy z Tencent.

Pomimo swoich obecnych ograniczeń, Voyager jest intrygujący dla specyficznych niszowych zadań. Na razie jednak pozostaje bardziej ciekawym narzędziem dla entuzjastów i profesjonalistów niż produktem na rynek masowy. Eksperci zauważają, że takie rozwój jak ten — od Tencent, Google (Genie 3) i innych startupów — to wczesne kroki w kierunku nowej formy generatywnej sztuki cyfrowej, w której widz może subtelnie "przesuwać" kamerę w stworzonym przez AI świecie.

    O autorze
    Komentarze0