人工智能模型如何彻底改变视频生成和图像编辑？

CryptoView.io APP

对加密市场进行X射线检查

社交媒体巨头Meta最近推出了其创新的视频生成人工智能模型和图像编辑功能。这些最先进的模型仍处于实验阶段，但初步结果表明它们可能会成为内容创作者、艺术家和动画师的改变者。

Meta推出的两款人工智能模型分别是Emu Video和Emu Edit。Emu Video是Meta先前Emu模型的升级版，可以从文本和图像输入生成视频剪辑。另一方面，Emu Edit专注于图像处理，在图像编辑方面提供了更高的精度。

Emu Video采用独特的”分解”方法，将训练过程分为两个步骤，使模型对不同输入做出响应。它首先根据文本提示生成图像，然后利用文本和生成的图像创建视频。该模型还可以根据文本提示”使图像动起来”。

与依赖深层级级联模型的其他模型不同，Emu Video仅使用两个扩散模型，在每秒16帧的情况下生成512×512的四秒视频。另一方面，Emu Edit使用户能够添加或删除图像背景，执行颜色和几何变换，并在本地和全局编辑图像。

Meta强调这些模型的主要目标不仅仅是生成”可信的”图像。相反，重点是以最高精度只改变与编辑请求相关的像素。例如，如果指令是在棒球帽上添加文本”Aloha！”，模型会确保棒球帽本身保持不变。

Emu Edit是使用具有输入图像、任务描述和目标输出图像的1千万合成图像数据集进行计算机视觉任务训练的。Meta声称这是迄今为止同类数据集中最大的一组数据。

最初的Emu模型是使用了惊人的11亿条数据进行训练，其中包括用户在Facebook和Instagram上分享的照片和说明。这是Meta首席执行官马克·扎克伯格在9月的Meta Connect活动上透露的。

尽管这些人工智能工具具有潜力，但由于受到监管机构的严密审查，Meta在部署这些工具时一直持谨慎态度。例如，Meta最近宣布不允许政治竞选活动和广告商使用其人工智能工具在Facebook和Instagram上创建广告。

随着我们深入探讨人工智能及其应用领域，像cryptoview.io这样的平台可以为我们提供对不断发展的技术领域的宝贵见解。借助其全面的功能，cryptoview.io可以帮助用户了解科技世界的最新发展。