文生图prompt不再又臭又长LLM增强扩散模型,简单句就能生成高质量图像|ACMMMapos;23
新智元报道
编纂:LRS

【新智元导读】参数高效的微调办法SUR-adapter,可以加强text-to-image扩散模子懂得症结词的才能。
扩散模子已经成为了主流的文本到图像天生模子,可以基于文本提醒的领导,天生高质量且内容丰硕的图像。
但假如输入的提醒过于简练,现有的模子在语义懂得和知识推理方面都存在局限,导致天生的图像质量降落显著。
为了进步模子懂得叙述性提醒的才能,中山年夜学HCP试验室林倞团队提出了一种简单而有用的参数高效的微调办法SUR-adapter,即语义懂得和推理适配器,可利用于预训练的扩散模子。
论文地址:https://arxiv.org/abs/2305.05189
开源地址:https://github.com/Qrange-group/SUR-adapter
为了实现该目的,研讨职员起首网络并标注了一个数据集SURD,包括跨越5.7万个语义校订的多模态样本,每个样本都包括一个简单的叙述性提醒、一个繁杂的基于症结字的提醒和一个高质量的图像。
然后,研讨职员将叙事提醒的语义表现与繁杂提醒对齐,并经由过程常识蒸馏将年夜型语言模子(LLM)的常识迁徙到SUR适配器,以便可以或许得到壮大的语义懂得和推理才能来构建高质量的文本语义表征用于文本到图像天生。
经由过程集成多个LLM和预训练扩散模子来进行试验,成果展示了该办法可以有用地使扩散模子懂得和推理简练的天然语言描写,而且不会低落图像质量。
该办法可以使文本到图像的扩散模子更容易使用,具有更好的用户体验,可以进一步推动用户友爱的文本到图像天生模子的成长,补充简单的叙事提醒和繁杂的基于症结字的提醒之间的语义差距。
配景先容
今朝,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模子已经成为今朝AIGC范畴最紧张的根基模子之一,在包含图像编纂、视频天生、3D工具天生等义务傍边施展着伟大的作用。
然而今朝的这些预训练扩散模子的语义才能主要依附于CLIP等文本编码器 (text encoder),其语义懂得才能关系到扩散模子的天生后果。
本文起首以视觉问答义务(VQA)中常用问题种别的"大众Counting (计数)"大众, "大众Color (色彩)"大众以及"大众Action (动作)"大众构造响应的本文提醒来人工统计并测试Stable diffusion的图文匹配精确度。
下表给出了所构造的各类prompt的例子。
成果如下表所示,文章揭示了今朝文生图预训练扩散模子有严重的语义懂得问题,年夜量问题的图文匹配精确度不敷50%,乃至在一些问题下,精确度只有0%。
是以,必要想方法加强预训练扩散模子中本文编码器的语义才能以得到相符文本天生前提的图像。
办法概述
1. 数据预备
起首从常用的扩散模子在线网站lexica.art,civitai.com,stablediffusionweb中年夜量获取图片文本对,并洗濯筛选得到跨越57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并组成SURD数据集。
如图所示,complex prompt是指天生image时扩散模子所必要的文本提醒前提,一样平常这些文本提醒带有繁杂的格局和描写。simple prompt是经由过程BLIP对image天生的文本描写,是一种相符人类描写的语言格局。
一样平常来说相符正凡人类语言描写的simple prompt很难让扩散模子天生足够相符语义的图像,而complex prompt(对此用户也戏称之为扩散模子的“咒语”)则可以到达令人满足的后果。
2. 年夜语言模子语义蒸馏
本文引入一个transformer布局的Adapter在特定隐含层中蒸馏年夜语言模子的语义特性,并将Adapter领导的年夜语言模子信息和本来文本编码器输出的语义特性做线性组合得到终极的语义特性。
此中年夜语言模子选用的是分歧年夜小的LLaMA模子。扩散模子的UNet部门在整个训练进程中的参数都是冻结的。
3. 图像质量规复
因为本文布局在预训练年夜模子推理进程引入了可进修模块,必定水平破坏了预训练模子的原图天生质量,是以必要将图像天生的质量拉回原预训练模子的天生质量程度。
本文应用SURD数据集中的三元组在训练中引入响应的质量损失函数以规复图像天生质量,详细地,本文愿望simple prompt经由过程新模块后得到的语义特性可以和complex prompt的语义特性尽可能地对齐。
下图展现了SUR-adapter对预训练扩散模子的fine-tuning框架。右侧为Adapter的收集布局。
试验成果
本文从语义匹配和图像质量两个角度来看SUR-adapter的机能。
一方面,如下表所示,SUR-adapter可以有用地在分歧的试验设置下缓解了文生图扩散模子中常见的语义不匹配问题。在分歧种别的语义准则下,精确度有必定的晋升。
另一方面,本文应用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模子和使用了SUR-adapter后的扩散模子所天生图片的质量进行统计查验,我们可以发现两者没有明显的差别。
同时,我们还对此进行了人类偏好的查询拜访问卷测试。
以上阐发阐明,所提出的办法可以在坚持图像天生质量的同时,缓解固有的预训练text-to-image固有的图文不匹配问题。
另外我们还可以定性地展现如下图所示的图像天生的例子,更具体的阐发和细节请参见本文文章和开源仓库。
HCP试验室简介
中山年夜学人机物智能交融试验室 (HCP Lab) 由林倞传授于 2010 年开办,近年来在多模态内容懂得、因果及认知推理、具身智能等方面取得丰硕学术结果,数次得到海内外科技奖项及最佳论文奖,并致力于打造产物级的AI技术及平台。
参考材料:
https://arxiv.org/abs/2305.05189