根據消息顯示,文心 ERNIE—ViLG 參數規模達到 100 億,是目前為止全球最大規模中文跨模態生成模型,該模型首次通過自回歸算法將圖像生成和文本生成統一建模,增強模型的跨模態語義對齊能力,顯著提升圖文生成效果。
小編帶你體驗文心 ERNIE—ViLG 圖像創作能力:
在文字生成圖像上,文心 ERNIE—ViLG 可以根據用戶輸入的文本,自動創作圖像,生成的圖像不僅符合文字描述,而且達到了非常逼真的效果。
文心 ERNIE—ViLG 不僅能創作建筑,動物等單個物體:
還可以創作包含多個物體的復雜場景:
甚至能根據用戶輸入的文字要求腦洞大開:
對于具有無限想象力的古詩詞,文心 ERNIE—ViLG 也能生成恰如其分的畫面,并根據不同的圖畫風格也有所調整:
油畫風格
中國畫風格
水彩畫風格
而在圖像到文本的生成上,文心 ERNIE—ViLG 能夠理解畫面,用簡潔的語言描述畫面的內容:
在這些能力的背后,究竟蘊含著怎樣的 AI 技術秘密。
跨模態生成:AI 領域極具挑戰性的一道難題
跨模態生成,指的是將一種模態 轉換成另一種模態,同時保持模態之間的語義一致性。
春江水暖鴨先知
近些年來,基于生成對抗網絡 的方法在人臉,風景等受限領域的文本到圖像生成任務上已取得了不錯的效果,DALL—E 通過超大規模的自回歸生成模型,在圖像片段之間建立了前后依賴的關系,從而具備多樣性生成的建模能力,在多樣性更強,難度更大的開放領域文本到圖像生成上取得了亮眼的效果。
文心 ERNIE—ViLG 技術原理解讀:圖文雙向生成統一建模
百度文心 ERNIE—ViLG 使用編碼器 — 解碼器參數共享的 Transformer 作為自回歸生成的主干網絡,同時學習文本生成圖像,圖像生成文本生成兩個任務。
基于圖像向量量化技術,文心 ERNIE—ViLG 把圖像表示成離散的序列,從而將文本和圖像進行統一的序列自回歸生成建模在文本生成圖像時, 文心 ERNIE—ViLG 模型的輸入是文本 token 序列,輸出是圖像 token 序列,圖像生成文本時則根據輸入的圖像序列預測文本內容兩個方向的生成任務使用同一個 Transformer 模型視覺和語言兩個模態在相同模型參數下進行相同模式的生成,能夠促進模型建立更好的跨模態語義對齊
文心 ERNIE—ViLG 圖文雙向生成統一建模框架
已有基于圖像離散表示的文本生成圖像模型主要采用兩階段訓練,文本生成視覺序列和根據視覺序列重建圖像兩個階段獨立訓練,文心 ERNIE—ViLG 提出了端到端的訓練方法,將序列生成過程中 Transformer 模型輸出的隱層圖像表示連接到重建模型中進行圖像還原,為重建模型提供語義更豐富的特征,對于生成模型,可以同時接收自身的抽象監督信號和來自重建模型的原始監督信號,有助于更好地學習圖像表示。
文心 ERNIE—ViLG 構建了包含 1.45 億高質量中文文本 — 圖像對的大規模跨模態對齊數據集,并基于百度飛槳深度學習平臺在該數據集上訓練了百億參數模型,在文本生成圖像,圖像描述等跨模態生成任務上評估了該模型的效果。
文本生成圖像任務效果
文心 ERNIE—ViLG 文本生成圖像的能力在開放領域公開數據集 MS—COCO 上進行了驗證評估指標使用 FID, 在 zero—shot 和 finetune 兩種方式下,文心 ERNIE—ViLG 都取得了最佳成績,效果遠超 OpenAI 發布的 DALL—E 等模型
文心 ERNIE—ViLG 在 MS—COCO數據集上的效果
圖像描述任務效果
文心 ERNIE—ViLG 在 AIC—ICC 數據集上的效果
生成式視覺問答任務效果
在生成式視覺問答方面,文心 ERNIE—ViLG 也展示了不俗的實力生成式視覺問答要求模型根據圖像內容和對應的問題生成答案,模型需要具備深度的視覺內容理解能力和跨模態的語義對齊能力,并需要生成簡短的答案文本,難度極高文心 ERNIE—ViLG 在 FMIQA 數據集上取得了最好的效果,圖靈測試的通過率達到了 78.5%,優于當前最好方法 14 個百分點
文心 ERNIE—ViLG 在 FMIQA 數據集上的效果
結語
。本文地址:http://www.dayishuiji.com/finance/19218.html - 轉載請保留原文鏈接。免責聲明:本文轉載上述內容出于傳遞更多信息之目的,不代表本網的觀點和立場,故本網對其真實性不負責,也不構成任何其他建議;本網站圖片,文字之類版權申明,因為網站可以由注冊用戶自行上傳圖片或文字,本網站無法鑒別所上傳圖片或文字的知識版權,如果侵犯,請及時通知我們,本網站將在第一時間及時刪除。 |