社交媒体巨头Meta最近推出了其创新的视频生成人工智能模型和图像编辑功能。这些最先进的模型仍处于实验阶段,但初步结果表明它们可能会成为内容创作者、艺术家和动画师的改变者。
揭示Emu Video和Emu Edit的力量
Meta推出的两款人工智能模型分别是Emu Video和Emu Edit。Emu Video是Meta先前Emu模型的升级版,可以从文本和图像输入生成视频剪辑。另一方面,Emu Edit专注于图像处理,在图像编辑方面提供了更高的精度。
Emu Video采用独特的”分解”方法,将训练过程分为两个步骤,使模型对不同输入做出响应。它首先根据文本提示生成图像,然后利用文本和生成的图像创建视频。该模型还可以根据文本提示”使图像动起来”。
与依赖深层级级联模型的其他模型不同,Emu Video仅使用两个扩散模型,在每秒16帧的情况下生成512×512的四秒视频。另一方面,Emu Edit使用户能够添加或删除图像背景,执行颜色和几何变换,并在本地和全局编辑图像。
Meta对精度和响应速度的承诺
Meta强调这些模型的主要目标不仅仅是生成”可信的”图像。相反,重点是以最高精度只改变与编辑请求相关的像素。例如,如果指令是在棒球帽上添加文本”Aloha!”,模型会确保棒球帽本身保持不变。
Emu Edit是使用具有输入图像、任务描述和目标输出图像的1千万合成图像数据集进行计算机视觉任务训练的。Meta声称这是迄今为止同类数据集中最大的一组数据。
使用海量数据集训练人工智能模型
最初的Emu模型是使用了惊人的11亿条数据进行训练,其中包括用户在Facebook和Instagram上分享的照片和说明。这是Meta首席执行官马克·扎克伯格在9月的Meta Connect活动上透露的。
尽管这些人工智能工具具有潜力,但由于受到监管机构的严密审查,Meta在部署这些工具时一直持谨慎态度。例如,Meta最近宣布不允许政治竞选活动和广告商使用其人工智能工具在Facebook和Instagram上创建广告。
随着我们深入探讨人工智能及其应用领域,像cryptoview.io这样的平台可以为我们提供对不断发展的技术领域的宝贵见解。借助其全面的功能,cryptoview.io可以帮助用户了解科技世界的最新发展。
