2024 年 4 月初,由OpenAI开发的一款新的人工智能应用程序DALL-E 2正在拓宽人们对机器创造力的看法。它能根据文本的内容自动生成栩栩如生的大师级画像。当时一经发布,DALL·E就火遍了 AI 圈,吸粉无数,今日OpenAI 结合 CLIP,又发布了 DALL·E 的第二个版本——DALL·E 2.0!可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成现实主义图像与艺术作品!
DALL-E 2不仅能按用户指令生成明明魔幻,却又看着十分合理不明觉厉的图片。
作为一款强大的模型,目前我们已知DALL-E 2还可以:
生成特定艺术风格的图像,仿佛出自该种艺术风格的画家之手,十分原汁原味!
保持一张图片显著特征的情况下,生成该图片的多种变体,每一种看起来都十分自然;
修改现有图像而不露一点痕迹,天衣无缝。
感觉有了DALL-E 2,艺术家都可以下岗了。
首先,将文本提示输入文本编码器,该训练过的编码器便将文本提示映射到表示空间。
接下来,称为先验的模型将文本编码映射到相应的图像编码,图像编码捕获文本编码中包含的提示的语义信息。
最后,图像解码模型随机生成一幅从视觉上表现该语义信息的图像。
1. 首先,DALL-E 2 展示了深度学习中扩散模型(Diffusion Model)的强大功能,因为 DALL-E 2 中的先验和图像生成子模型都是基于扩散的。虽然在过去几年才开始流行,但扩散模型已经证明了自身价值,一些关注深度学习研究的人也期望在未来看到更多进展。
2. 其次,展示了使用自然语言作为训练深度学习 SOTA 模型的手段的必要性和力量。这一点并非源于 DALL-E 2,但重要的是认识到, DALL-E 2 的力量是源于可在互联网上获得大规模匹配的自然语言 / 图像数据。使用这些数据消除了手动标注数据集的高成本和相关瓶颈,但这类数据嘈杂、未经处理的性质也反映了深度学习模型必须具备面对真实数据的鲁棒性。
3. 最后,DALL-E 2 重申了 Transformer 的地位,鉴于它们具有令人印象深刻的并行性,因此对于在网络规模数据集上训练的模型来说是至高无上的!
75.39M声海
33.41M青柠设计手机版
67.92M时间戳助手安卓版
56M手机维修助手软件
30.98M涂鸦画图安卓版
30.37M闪指连点器免费版
34.13M我们的翻译官手机版
88.05M闪电写作APP
32.26M时光印记app
38.98M耗子软件库免费版
本站所有软件来自互联网,版权归原著所有。如有侵权,敬请来信告知 ,我们将及时删除。 琼ICP备2023003481号-5