您的位置:首页 >综合资讯 >正文

苹果发布MGIE一种理解文本编辑图像的AI模型

摘要 Apple 推出了一种令人兴奋的新 AI 模型,名为 MGIE,用户只需提供自然语言指令即可编辑图像。MGIE 是 MLLM 引导图像编辑的缩写,利...

Apple 推出了一种令人兴奋的新 AI 模型,名为 MGIE,用户只需提供自然语言指令即可编辑图像。MGIE 是 MLLM 引导图像编辑的缩写,利用大型语言模型来解释文本提示并对照片进行像素级更改。这种新的开源工具代表了多模式人工智能的重大进步,可以显着增强创意工作流程。

MGIE 是Apple与加州大学圣巴巴拉分校研究人员合作的成果。该模型在今年的国际学习表征会议上的一篇论文中提出,该会议是展示尖端人工智能系统的首要场所。论文中描述的实验证明了 MGIE 在改进图像编辑指标和人类评估方面的令人印象深刻的性能。该系统还保持有竞争力的计算效率。

那么 MGIE 是如何发挥其魔力的呢?它结合了多模式大语言模型 (MLLM),以便理解指令并生成视觉输出。MLLM 已被证明在跨模式推理和对文本图像输入做出适当响应方面具有极强的能力。通过将 MLLM 集成到编辑管道中,MGIE 可以将用户命令转换为简洁、明确的编辑指南。例如,“让天空更蓝”变成“将天空区域的饱和度增加20%”。

MGIE 的多功能设计支持各种图像编辑用例。它可以处理常见的 Photoshop 调整,例如裁剪、旋转和过滤。该模型还执行更高级的对象操作、背景替换和照片混合。MGIE 通过调整亮度和对比度等属性来全局优化图像。它还对特定区域和对象执行本地化编辑。该系统可以修改视觉属性,包括形状、大小、颜色、纹理和样式。

MGIE 无法像 ChatGPT 那样通过应用程序或网站访问。但如果您是一名开发人员,那么 MGIE 的入门非常简单。代码、数据和预训练模型可在开源 GitHub 存储库中获取。该项目包括一个演示笔记本,用于说明 MGIE 如何实现各种编辑。

版权声明:本文由用户上传,如有侵权请联系删除!