Comment les modèles d'IA révolutionnent la génération de vidéos et l'édition d'images?

Comment les modèles d’IA révolutionnent la génération de vidéos et l’édition d’images?

CryptoView.io APP

Scannez tous les marchés crypto

Meta, le géant des médias sociaux, a récemment dévoilé ses innovants modèles d’IA pour la génération de vidéos et l’édition d’images. Ces modèles de pointe sont encore à l’essai, mais les premiers résultats suggèrent qu’ils pourraient changer la donne pour les créateurs de contenu, les artistes et les animateurs.

Dévoiler la puissance d’Emu Video et Emu Edit

Les deux modèles d’IA introduits par Meta sont Emu Video et Emu Edit. Emu Video, une amélioration du précédent modèle Emu de Meta, peut générer des clips vidéo à partir de textes et d’images. De son côté, Emu Edit se concentre sur la manipulation d’images, offrant une précision améliorée dans l’édition d’images.

Emu Video utilise une approche unique « factorisée », divisant le processus de formation en deux étapes pour rendre le modèle réactif à différentes entrées. Il génère d’abord des images à partir d’une instruction textuelle, puis crée une vidéo en utilisant à la fois le texte et l’image générée. Ce modèle peut également « animer » des images à partir d’une instruction textuelle.

Contrairement à d’autres modèles qui reposent sur une cascade profonde de modèles, Emu Video n’utilise que deux modèles de diffusion pour générer des vidéos de 512×512 pixels de quatre secondes à 16 images par seconde. Emu Edit, quant à lui, permet aux utilisateurs d’ajouter ou de supprimer des arrière-plans d’images, d’effectuer des transformations de couleur et de géométrie, et d’éditer des images à la fois localement et globalement.

L’engagement de Meta envers la précision et la réactivité

Meta souligne que l’objectif principal de ces modèles n’est pas seulement de produire des images « crédibles ». L’accent est plutôt mis sur l’altération uniquement des pixels pertinents pour la demande d’édition avec la plus grande précision. Par exemple, si l’instruction est d’ajouter le texte « Aloha! » sur une casquette de baseball, le modèle veille à ce que la casquette elle-même reste inchangée.

Emu Edit a été entraîné à l’aide de tâches de vision par ordinateur avec un ensemble de données de 10 millions d’images synthétisées, chacune avec une image d’entrée, une description de tâche et une image de sortie ciblée. Meta affirme qu’il s’agit du plus grand ensemble de données de ce type à ce jour.

Formation de modèles d’IA avec des ensembles de données massifs

Le modèle Emu d’origine a été entraîné à l’aide d’un impressionnant ensemble de 1,1 milliard de données, comprenant des photos et des légendes partagées par les utilisateurs sur Facebook et Instagram. Cela a été révélé par le PDG Mark Zuckerberg lors de l’événement Meta Connect en septembre.

Malgré le potentiel de ces outils d’IA, Meta a été prudent dans leur déploiement en raison de l’attention soutenue des régulateurs. Par exemple, Meta a récemment annoncé qu’il n’autoriserait pas les campagnes politiques et les annonceurs à utiliser ses outils d’IA pour créer des publicités sur Facebook et Instagram.

Alors que nous approfondissons notre compréhension du monde de l’IA et de ses applications, des plateformes comme cryptoview.io peuvent fournir des aperçus inestimables sur le paysage technologique en constante évolution. Avec ses fonctionnalités complètes, cryptoview.io peut aider les utilisateurs à rester informés des derniers développements dans le monde de la technologie.

Explorez cryptoview.io maintenant

Contrôlez les RSI de tous les marchés crypto

RSI Weather

Tous les RSI des plus gros volumes en un clin d'œil.
Utilisez notre outil de visualiser instantanément le sentiment du marché ou uniquement de vos favoris.