Google wprowadza Lumier – zaawansowaną sztuczną inteligencję do tworzenia wideo
Google zademonstrował przestrzenno-czasowy model dyfuzji Lumiere. Nowe narzędzie AI może tworzyć niezwykle realistyczne filmy o długości do pięciu sekund. Sieć neuronowa animuje nieruchome obrazy lub tylko ich części w odpowiedzi na polecenia tekstowe w języku naturalnym. W przeciwieństwie do swoich poprzedników, Lumiere buduje całą długość wideo na raz, zamiast generować pierwszą i ostatnią klatkę, próbując odgadnąć, co dzieje się pomiędzy nimi. Rozwój jest projektem badawczym i nie wiadomo jeszcze, czy będzie on dostępny do powszechnego użytku.
Lumiere może skopiować styl obrazu, a następnie użyć tego stylu do stworzenia serii filmów na inne tematy. Sieć neuronowa może pobrać oryginalny film użytkownika i przekształcić go w klocki Lego, origami lub kwiaty.
Sądząc po demonstracjach, Lumiere ma najbardziej zaawansowane możliwości rysowania. Możesz zamknąć część obrazu, a Lumiere automatycznie wypełni ten obszar – tak płynnie, że nie sposób stwierdzić, czy interweniowała sztuczna inteligencja.
Zespół badawczy twierdzi, że przestrzenno-czasowa architektura U-net buduje całą długość wideo za jednym razem, w jednym przejściu. To odróżnia sieć neuronową od poprzednich modeli, które często generowały początkową i końcową klatkę, a następnie próbowały odgadnąć, co stanie się między nimi.
Na razie jest to tylko projekt badawczy. Dlatego Google niekoniecznie musi agresywnie neutralizować system w celu poszanowania praw autorskich, prywatności i bezpieczeństwa, a także zapobiegania mowie nienawiści i nagości. Proces ten niezmiennie prowadzi do obniżenia jakości wyników w modelach generatywnych.