Meta, el gigante de las redes sociales, ha revelado recientemente sus innovadores modelos de IA para generación de video y edición de imágenes. Estos modelos de vanguardia aún se encuentran en fase experimental, pero los resultados preliminares sugieren que podrían ser un cambio de juego para creadores de contenido, artistas y animadores.
Revelando el poder de Emu Video y Emu Edit
Los dos modelos de IA presentados por Meta son Emu Video y Emu Edit. Emu Video, una mejora del modelo Emu anterior de Meta, puede generar videoclips a partir de entradas de texto e imagen. Por otro lado, Emu Edit se centra en la manipulación de imágenes, ofreciendo una precisión mejorada en la edición de imágenes.
Emu Video utiliza un enfoque único «factorizado», dividiendo el proceso de entrenamiento en dos pasos para que el modelo responda a diferentes entradas. Primero genera imágenes basadas en una indicación de texto, luego crea un video utilizando tanto el texto como la imagen generada. Este modelo también puede «animar» imágenes basadas en una indicación de texto.
A diferencia de otros modelos que dependen de una cascada profunda de modelos, Emu Video utiliza solo dos modelos de difusión para generar videos de 512×512 de cuatro segundos a 16 cuadros por segundo. Emu Edit, por otro lado, permite a los usuarios agregar o eliminar fondos de imágenes, realizar transformaciones de color y geometría, y editar imágenes tanto local como globalmente.
Compromiso de Meta con la precisión y la capacidad de respuesta
Meta enfatiza que el objetivo principal de estos modelos no es solo producir imágenes «creíbles». En cambio, el enfoque se centra en alterar solo los píxeles relevantes para la solicitud de edición con la máxima precisión. Por ejemplo, si la instrucción es agregar el texto «¡Aloha!» a una gorra de béisbol, el modelo se asegura de que la gorra misma permanezca sin cambios.
Emu Edit fue entrenado utilizando tareas de visión por computadora con un conjunto de datos de 10 millones de imágenes sintetizadas, cada una con una imagen de entrada, una descripción de la tarea y una imagen de salida objetivo. Meta afirma que este es el conjunto de datos más grande de su tipo hasta la fecha.
Entrenamiento de modelos de IA con conjuntos de datos masivos
El modelo original de Emu fue entrenado utilizando un asombroso 1.100 millones de piezas de datos, incluidas fotos y leyendas compartidas por usuarios en Facebook e Instagram. Esto fue revelado por el CEO Mark Zuckerberg en el evento Meta Connect en septiembre.
A pesar del potencial de estas herramientas de IA, Meta ha sido cauteloso en su implementación debido a la estrecha supervisión de los reguladores. Por ejemplo, Meta anunció recientemente que no permitirá que campañas políticas y anunciantes utilicen sus herramientas de IA para crear anuncios en Facebook e Instagram.
A medida que profundizamos en el mundo de la IA y sus aplicaciones, plataformas como cryptoview.io pueden proporcionar ideas invaluables sobre el panorama tecnológico en rápida evolución. Con sus características completas, cryptoview.io puede ayudar a los usuarios a mantenerse actualizados con los últimos desarrollos en el mundo tecnológico.
