Como os modelos de IA estão revolucionando a geração de vídeo e a edição de imagem?

Como os modelos de IA estão revolucionando a geração de vídeo e a edição de imagem?

CryptoView.io APP

Raio-X dos mercados de cripto

Meta, o gigante das redes sociais, recentemente revelou seus inovadores modelos de IA para geração de vídeo e edição de imagem. Esses modelos de ponta ainda estão em fase experimental, mas os resultados iniciais sugerem que podem ser revolucionários para criadores de conteúdo, artistas e animadores.

Revelando o Poder do Emu Vídeo e Emu Edit

Os dois modelos de IA introduzidos pela Meta são o Emu Vídeo e o Emu Edit. O Emu Vídeo, uma melhoria do modelo Emu anterior da Meta, pode gerar videoclipes a partir de entradas de texto e imagem. Por outro lado, o Emu Edit foca na manipulação de imagem, oferecendo maior precisão na edição de imagem.

O Emu Vídeo utiliza uma abordagem única de “fatorização”, dividindo o processo de treinamento em duas etapas para tornar o modelo responsivo a diferentes entradas. Primeiro, gera imagens com base em uma solicitação de texto e, em seguida, cria um vídeo usando tanto o texto quanto a imagem gerada. Este modelo também pode “animar” imagens com base em uma solicitação de texto.

Ao contrário de outros modelos que dependem de uma cascata profunda de modelos, o Emu Vídeo usa apenas dois modelos de difusão para gerar vídeos de quatro segundos de 512×512 pixels a 16 quadros por segundo. Já o Emu Edit permite que os usuários adicionem ou removam fundos de imagem, realizem transformações de cor e geometria e editem imagens local e globalmente.

Compromisso da Meta com Precisão e Responsividade

A Meta enfatiza que o objetivo principal desses modelos não é apenas produzir imagens “críveis”. Em vez disso, o foco está em alterar apenas os pixels relevantes para a solicitação de edição com extrema precisão. Por exemplo, se a instrução for adicionar o texto “Aloha!” a um boné de beisebol, o modelo garante que o boné em si permaneça inalterado.

O Emu Edit foi treinado usando tarefas de visão computacional com um conjunto de dados de 10 milhões de imagens sintetizadas, cada uma com uma imagem de entrada, uma descrição da tarefa e uma imagem de saída direcionada. A Meta afirma que este é o maior conjunto de dados do tipo até o momento.

Treinando Modelos de IA com Conjuntos de Dados Massivos

O modelo original Emu foi treinado com impressionantes 1,1 bilhão de dados, incluindo fotos e legendas compartilhadas por usuários no Facebook e Instagram. Isso foi revelado pelo CEO Mark Zuckerberg no evento Meta Connect em setembro.

Apesar do potencial dessas ferramentas de IA, a Meta tem sido cautelosa em sua implementação devido à atenção próxima dos reguladores. Por exemplo, a Meta anunciou recentemente que não permitirá que campanhas políticas e anunciantes usem suas ferramentas de IA para criar anúncios no Facebook e Instagram.

À medida que nos aprofundamos no mundo da IA e suas aplicações, plataformas como cryptoview.io podem fornecer insights valiosos sobre o cenário tecnológico em rápida evolução. Com seus recursos abrangentes, cryptoview.io pode ajudar os usuários a se manterem atualizados com os últimos desenvolvimentos no mundo da tecnologia.

Explore cryptoview.io agora

Controle o RSI de todos os mercados cripto

RSI Weather

Todos os RSI dos maiores volumes num piscar de olhos.
Use nossa ferramenta para visualizar instantaneamente o sentimento do mercado ou apenas os seus favoritos.