9款最新文生圖模型彙總!含華爲、谷歌、Stability AI等大廠創新模型(附論文和代碼)

慈雲數據 8個月前 (03-12) 技術支持 133 0

2023年真是文生圖大放異彩的一年,給數字藝術界和創意圈注入了新鮮血液。從起初的基礎圖像創作躍進到現在的超逼真效果,這些先進的模型徹底變革了我們制作和享受數字作品的途徑。

最近,一些大公司比如華爲、谷歌、還有Stability AI等人工智能巨頭也沒閑着,紛紛推出了自己的最新文生圖模型。

今天就給大家盤點一下近期新推出的文生圖模型,爲了讓各位更全面地理解這些技術,我還特别準備了相關的研究論文和代碼分享!

1、PanGu-Draw(華爲)

論文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

PanGu-Draw:通過時間解耦訓練和可重用 Coop-Diffusion 推進資源節約型文本到圖像合成

簡述:本文提出了PanGu-Draw,一種高效的文本到圖像潛在擴散模型,能适應多控制信号。該模型采用時間解耦訓練策略,分爲結構器和紋理器,大幅提升數據和計算效率。同時,研究人員引入Coop-Diffusion算法,允許不同潛在空間和分辨率的模型協同工作,無需額外數據或重新訓練。PanGu-Draw在文本到圖像和多控制圖像生成上表現出色,指向了訓練效率和生成多功能性的新方向。

圖片

2、Imagen & Imagen 2(谷歌)

論文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

具有深度語言理解的逼真文本到圖像擴散模型

簡述:本文提出了Imagen,一款新型的文本到圖像擴散模型,實現了極高的真實感和深度語言理解。該模型結合了大型Transformer語言模型和擴散模型的技術,優化了語言模型的大小以提高圖像質量和文本對齊。在COCO數據集上,Imagen取得了領先的FID分數,且其樣本的圖像-文本對齊得到了人類評分者的好評。研究人員還引入了DrawBench基準測試,比較了Imagen與其他最新方法,發現其在樣本質量和圖像文本對齊方面更優秀。

圖片

3、SDXL Turbo(Stability AI)

論文:Adversarial Diffusion Distillation

對抗性擴散蒸餾

簡述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基礎上進行叠代,并爲文本到圖像模型實現了一種新的蒸餾技術:對抗擴散蒸餾(ADD),能夠高效地從大規模基礎圖像擴散模型中采樣,同時保持高質量圖像。該模型在一步中明顯優于現有幾步方法,并在四步内達到最先進擴散模型的性能。ADD 是首個使用基礎模型實現單步實時圖像合成的方法。

圖片

4、CM3Leon(Meta)

論文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

擴展自回歸多模态模型:預訓練和指令調優

簡述:本文提出了CM3Leon,一種多模态語言模型,擅長生成和填充文本和圖像。它是首個采用純文本語言模型訓練方法的多模态模型,包括大規模檢索增強預訓練和多任務監督微調階段。CM3Leon在文本到圖像生成上實現了領先性能,計算量比同類方法少5倍。此外,CM3Leon在圖像編輯和控制生成等任務中展現出前所未有的可控性。

圖片

5、PixArt-α(華爲諾亞方舟實驗室聯合大連理工大學、香港大學、香港科技大學等機構)

論文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

PixArt-α:快速訓練擴散變壓器,實現逼真的文本到圖像合成

簡述:本文提出了PixArt-α,一種高效的基于Transformer的文本轉圖像模型,它能以較少的訓練資源生成與最先進模型相媲美的商業級圖像。PixArt-α采用三種策略:優化的訓練步驟、高效的Transformer架構和增強的數據處理,實現了快速、低成本且環保的訓練過程。實驗結果顯示,PixArt-α在多個方面表現出色,爲AIGC領域提供了新的創新方向。

圖片

6、Kandinsky 3.0(俄羅斯AI Forever研究團隊)

論文:Kandinsky 3.0 Technical Report

Kandinsky 3.0 技術報告

簡述:本文提出了Kandinsky 3.0,一個基于潛在擴散的大規模文本到圖像生成模型,旨在提高圖像生成的質量和真實性。該模型通過使用更大的U-Net主幹網和文本編碼器以及去除擴散映射進行改進。文中詳細介紹了模型的架構、訓練過程和生産系統,并強調了關鍵組件對提升模型質量的重要性。實驗表明,Kandinsky 3.0在文本理解和特定領域表現上有所提升。

圖片

7、DreamBooth(谷歌)

論文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth:微調文本到圖像擴散模型,用于主題驅動的生成

簡述:本文提出了DreamBooth,一種個性化文生圖模型,它通過微調預訓練的文生圖模型,如Imagen,将一個獨特的标識符與某個物體綁定,這樣模型就可以在含有該标識符的prompt下,在不同場景中生成包含該物體的新穎圖片。這種技術利用模型的語義先驗和新的特定類先驗保留損失,實現了在多樣化條件下合成主體的能力。研究人員将此技術應用于多種任務,并提出了新的數據集和評估标準,以推動主題驅動的圖像生成的發展。

圖片

8、GigaGAN(POSTECH、卡内基梅隆大學和 Adobe 研究院的研究人員)

論文:Scaling up GANs for Text-to-Image Synthesis

擴展 GAN 以進行文本到圖像合成

簡述:本文提出了GigaGAN,一種改進的 GAN 架構,它被設計用于提高文本到圖像合成的效率和質量,它具有三大優勢:首先,它在推理時間快幾個數量級,合成 512px 的圖像隻需 0.13 秒;其次,它可以合成高分辨率圖像,例如,在 16 秒内合成 3.66 像素的圖像;最後,GigaGAN支持各種潛在空間編輯應用,如潛在插值、樣式混合和向量算術運算。

圖片

9、LCM (清華大學交叉信息研究院的研究者們)

論文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

潛在一緻性模型:通過少步推理合成高分辨率圖像

簡述:本文提出了LCM,一種在預訓練LDM上快速推理的新模型,通過預測常微分方程的解減少叠代,實現快速、高保真的圖像采樣。LCM在預訓練的無分類器引導擴散模型上表現出色,隻需少量步驟即可生成高質量的圖像,訓練僅需少量計算資源。研究人員還提出了LCF,用于在自定義圖像數據集上微調LCM。在LAION-5B-Aesthetics數據集上的評估顯示,LCM實現了最先進的文本到圖像生成性能。

圖片

碼字不易,歡迎大家點贊評論收藏!

關注下方《享享學AI》

回複【文生圖模型】獲取完整論文和代碼

👇

微信掃一掃加客服

微信掃一掃加客服

點擊啓動AI問答
Draggable Icon