Czat zamiast Photoshopa: Gemini 2.0 Flash od Google'a uczy się edytować obrazy poprzez dialog

Czat zamiast Photoshopa: Gemini 2.0 Flash od Google'a uczy się edytować obrazy poprzez dialog

Arkadiy Andrienko

Google podjęło niespodziewany krok w wyścigu generatywnej AI, wprowadzając eksperymentalną wersję multimodalną Gemini 2.0 Flash w AI Studio. Model potrafi nie tylko generować obrazy od podstaw, ale także modyfikować szczegóły w istniejących zdjęciach za pomocą prostego interfejsu czatu — bez potrzeby odtwarzania całego obrazu. To pierwszy raz, gdy duży gracz wprowadza taką funkcjonalność, wyprzedzając OpenAI i xAI Elona Muska.

Użytkownicy mogą wydawać polecenia Gemini w formacie konwersacyjnym, takim jak „zmień tło na górski krajobraz” lub „dodaj podpis po rosyjsku”. AI zachowuje kontekst rozmowy, co pozwala na szereg postępujących edytacji. Na przykład użytkownicy mogą zmienić strój osoby, następnie „przenieść” ją w inne miejsce, a na końcu dostosować oświetlenie. Wszystkie zmiany są stosowane bezpośrednio do oryginalnego obrazu, co oszczędza czas i zasoby.

Każdy wygenerowany obraz jest automatycznie oznaczony znakiem wodnym SynthID — technologią Google do walki z deepfake'ami. Jest to szczególnie ważne dla projektantów i marketerów, którzy mogą teraz legalnie używać treści w projektach komercyjnych. Mniej oczywiste, ale równie imponujące funkcje obejmują klonowanie tekstur, kolorowanie starych zdjęć, a nawet „uzupełnianie” brakujących elementów w obrazach za pomocą sugestii opartych na tekście.

Chociaż Gemini 2.0 Flash rozumie polecenia w języku rosyjskim, usługa nie jest oficjalnie dostępna w Rosji. Deweloperzy i firmy mogą testować model za darmo przez AI Studio lub API, ale niektóre funkcje, takie jak zamiana twarzy czy skomplikowana rekonstrukcja, pozostają niestabilne. Google podkreśla, że jest to wczesna wersja, a ostateczna wersja będzie zoptymalizowana do zadań w czasie rzeczywistym.

Eksperci zauważają, że Google po raz pierwszy połączyło kreatywną elastyczność Midjourney, precyzję DALL-E oraz interaktywność ChatGPT w jednym modelu. Jeśli eksperyment okaże się udany, może to znacznie uprościć pracę w projektowaniu, edukacji, a nawet dziennikarstwie — umożliwiając natychmiastową wizualizację danych lub tworzenie ilustracji artykułów bez udziału ludzi. Na razie Gemini 2.0 Flash pozostaje intrygującym narzędziem, które już redefiniuje możliwości generatywnej AI.

    O autorze
    Komentarze0