Jak modele AI rewolucjonizują generowanie wideo i edycję obrazu?

Jak modele AI rewolucjonizują generowanie wideo i edycję obrazu?

CryptoView.io APP

Rentgen rynków kryptowalut

Meta, gigant mediów społecznościowych, niedawno ujawniła swoje innowacyjne modele AI do generowania wideo i edycji obrazu. Te najnowocześniejsze modele są wciąż w fazie eksperymentalnej, ale wstępne wyniki wskazują, że mogą one zmienić zasady gry dla twórców treści, artystów i animatorów.

Odkrywanie Mocy Emu Video i Emu Edit

Dwa modele AI wprowadzone przez Metę to Emu Video i Emu Edit. Emu Video, ulepszenie poprzedniego modelu Emu Meta, może generować klipy wideo na podstawie tekstu i obrazu. Z kolei Emu Edit skupia się na manipulacji obrazem, oferując poprawioną precyzję w edycji obrazu.

Emu Video wykorzystuje unikalne podejście „zafaktoryzowane”, dzieląc proces szkolenia na dwa kroki, aby model był responsywny na różne dane wejściowe. Najpierw generuje obrazy na podstawie podpowiedzi tekstowej, a następnie tworzy wideo, wykorzystując zarówno tekst, jak i wygenerowany obraz. Ten model może również „animować” obrazy na podstawie podpowiedzi tekstowej.

W przeciwieństwie do innych modeli, które polegają na głębokim kaskadowym układzie modeli, Emu Video wykorzystuje tylko dwa modele dyfuzji do generowania wideo 512×512 o długości cztery sekundy z 16 klatkami na sekundę. Z kolei Emu Edit umożliwia użytkownikom dodawanie lub usuwanie tła obrazu, dokonywanie transformacji kolorystycznych i geometrycznych oraz edycję obrazów zarówno lokalnie, jak i globalnie.

Zobowiązanie Mety do Precyzji i Responsywności

Meta podkreśla, że głównym celem tych modeli nie jest tylko generowanie „wiarygodnych” obrazów. Zamiast tego, skupia się na zmianie tylko pikseli istotnych dla żądanej edycji z najwyższą precyzją. Na przykład, jeśli instrukcja brzmi: dodaj tekst „Aloha!” na czapce bejsbolowej, model zapewnia, że sama czapka pozostaje niezmieniona.

Emu Edit został przeszkolony za pomocą zadań związanych z widzeniem komputerowym przy użyciu zestawu danych obejmującego 10 milionów zsyntetyzowanych obrazów, z każdym obrazem wejściowym, opisem zadania i docelowym obrazem wyjściowym. Meta twierdzi, że jest to największy tego rodzaju zbiór danych do tej pory.

Szkolenie Modeli AI przy Użyciu Ogromnych Zestawów Danych

Oryginalny model Emu został przeszkolony przy użyciu imponującej liczby 1,1 miliarda elementów danych, w tym zdjęć i podpisów udostępnionych przez użytkowników na Facebooku i Instagramie. Fakt ten został ujawniony przez dyrektora generalnego Marka Zuckerberga podczas wydarzenia Meta Connect we wrześniu.

Mimo potencjału tych narzędzi AI, Meta była ostrożna w ich wdrażaniu ze względu na ścisłą kontrolę ze strony organów regulacyjnych. Na przykład, Meta niedawno ogłosiła, że nie będzie zezwalać kampaniom politycznym i reklamodawcom na korzystanie z jej narzędzi AI do tworzenia reklam na Facebooku i Instagramie.

W miarę zagłębiania się w świat AI i jego zastosowania, platformy takie jak cryptoview.io mogą dostarczyć nieocenionych wglądów w dynamicznie zmieniający się krajobraz technologiczny. Dzięki swoim wszechstronnym funkcjom, cryptoview.io może pomóc użytkownikom pozostać na bieżąco z najnowszymi rozwojami w świecie technologii.

Eksploruj teraz cryptoview.io

Kontroluj RSI wszystkich rynków krypto

RSI Weather

Wszystkie RSI największych wolumenów na pierwszy rzut oka.
Użyj naszego narzędzia, aby natychmiast zobaczyć nastroje rynku lub tylko swoje ulubione.