根據(jù)消息顯示,文心 ERNIE—ViLG 參數(shù)規(guī)模達(dá)到 100 億,是目前為止全球最大規(guī)模中文跨模態(tài)生成模型,該模型首次通過自回歸算法將圖像生成和文本生成統(tǒng)一建模,增強(qiáng)模型的跨模態(tài)語義對(duì)齊能力,顯著提升圖文生成效果。
小編帶你體驗(yàn)文心 ERNIE—ViLG 圖像創(chuàng)作能力:
在文字生成圖像上,文心 ERNIE—ViLG 可以根據(jù)用戶輸入的文本,自動(dòng)創(chuàng)作圖像,生成的圖像不僅符合文字描述,而且達(dá)到了非常逼真的效果。
文心 ERNIE—ViLG 不僅能創(chuàng)作建筑,動(dòng)物等單個(gè)物體:
還可以創(chuàng)作包含多個(gè)物體的復(fù)雜場(chǎng)景:
甚至能根據(jù)用戶輸入的文字要求腦洞大開:
對(duì)于具有無限想象力的古詩詞,文心 ERNIE—ViLG 也能生成恰如其分的畫面,并根據(jù)不同的圖畫風(fēng)格也有所調(diào)整:
油畫風(fēng)格
中國畫風(fēng)格
水彩畫風(fēng)格
而在圖像到文本的生成上,文心 ERNIE—ViLG 能夠理解畫面,用簡(jiǎn)潔的語言描述畫面的內(nèi)容:
在這些能力的背后,究竟蘊(yùn)含著怎樣的 AI 技術(shù)秘密。
跨模態(tài)生成:AI 領(lǐng)域極具挑戰(zhàn)性的一道難題
跨模態(tài)生成,指的是將一種模態(tài) 轉(zhuǎn)換成另一種模態(tài),同時(shí)保持模態(tài)之間的語義一致性。
春江水暖鴨先知
近些年來,基于生成對(duì)抗網(wǎng)絡(luò) 的方法在人臉,風(fēng)景等受限領(lǐng)域的文本到圖像生成任務(wù)上已取得了不錯(cuò)的效果,DALL—E 通過超大規(guī)模的自回歸生成模型,在圖像片段之間建立了前后依賴的關(guān)系,從而具備多樣性生成的建模能力,在多樣性更強(qiáng),難度更大的開放領(lǐng)域文本到圖像生成上取得了亮眼的效果。
文心 ERNIE—ViLG 技術(shù)原理解讀:圖文雙向生成統(tǒng)一建模
百度文心 ERNIE—ViLG 使用編碼器 — 解碼器參數(shù)共享的 Transformer 作為自回歸生成的主干網(wǎng)絡(luò),同時(shí)學(xué)習(xí)文本生成圖像,圖像生成文本生成兩個(gè)任務(wù)。
基于圖像向量量化技術(shù),文心 ERNIE—ViLG 把圖像表示成離散的序列,從而將文本和圖像進(jìn)行統(tǒng)一的序列自回歸生成建模在文本生成圖像時(shí), 文心 ERNIE—ViLG 模型的輸入是文本 token 序列,輸出是圖像 token 序列,圖像生成文本時(shí)則根據(jù)輸入的圖像序列預(yù)測(cè)文本內(nèi)容兩個(gè)方向的生成任務(wù)使用同一個(gè) Transformer 模型視覺和語言兩個(gè)模態(tài)在相同模型參數(shù)下進(jìn)行相同模式的生成,能夠促進(jìn)模型建立更好的跨模態(tài)語義對(duì)齊
文心 ERNIE—ViLG 圖文雙向生成統(tǒng)一建模框架
已有基于圖像離散表示的文本生成圖像模型主要采用兩階段訓(xùn)練,文本生成視覺序列和根據(jù)視覺序列重建圖像兩個(gè)階段獨(dú)立訓(xùn)練,文心 ERNIE—ViLG 提出了端到端的訓(xùn)練方法,將序列生成過程中 Transformer 模型輸出的隱層圖像表示連接到重建模型中進(jìn)行圖像還原,為重建模型提供語義更豐富的特征,對(duì)于生成模型,可以同時(shí)接收自身的抽象監(jiān)督信號(hào)和來自重建模型的原始監(jiān)督信號(hào),有助于更好地學(xué)習(xí)圖像表示。
文心 ERNIE—ViLG 構(gòu)建了包含 1.45 億高質(zhì)量中文文本 — 圖像對(duì)的大規(guī)模跨模態(tài)對(duì)齊數(shù)據(jù)集,并基于百度飛槳深度學(xué)習(xí)平臺(tái)在該數(shù)據(jù)集上訓(xùn)練了百億參數(shù)模型,在文本生成圖像,圖像描述等跨模態(tài)生成任務(wù)上評(píng)估了該模型的效果。
文本生成圖像任務(wù)效果
文心 ERNIE—ViLG 文本生成圖像的能力在開放領(lǐng)域公開數(shù)據(jù)集 MS—COCO 上進(jìn)行了驗(yàn)證評(píng)估指標(biāo)使用 FID, 在 zero—shot 和 finetune 兩種方式下,文心 ERNIE—ViLG 都取得了最佳成績(jī),效果遠(yuǎn)超 OpenAI 發(fā)布的 DALL—E 等模型
文心 ERNIE—ViLG 在 MS—COCO數(shù)據(jù)集上的效果
圖像描述任務(wù)效果
文心 ERNIE—ViLG 在 AIC—ICC 數(shù)據(jù)集上的效果
生成式視覺問答任務(wù)效果
在生成式視覺問答方面,文心 ERNIE—ViLG 也展示了不俗的實(shí)力生成式視覺問答要求模型根據(jù)圖像內(nèi)容和對(duì)應(yīng)的問題生成答案,模型需要具備深度的視覺內(nèi)容理解能力和跨模態(tài)的語義對(duì)齊能力,并需要生成簡(jiǎn)短的答案文本,難度極高文心 ERNIE—ViLG 在 FMIQA 數(shù)據(jù)集上取得了最好的效果,圖靈測(cè)試的通過率達(dá)到了 78.5%,優(yōu)于當(dāng)前最好方法 14 個(gè)百分點(diǎn)
文心 ERNIE—ViLG 在 FMIQA 數(shù)據(jù)集上的效果
結(jié)語
。本文地址:http://www.dayishuiji.com/finance/19218.html - 轉(zhuǎn)載請(qǐng)保留原文鏈接。免責(zé)聲明:本文轉(zhuǎn)載上述內(nèi)容出于傳遞更多信息之目的,不代表本網(wǎng)的觀點(diǎn)和立場(chǎng),故本網(wǎng)對(duì)其真實(shí)性不負(fù)責(zé),也不構(gòu)成任何其他建議;本網(wǎng)站圖片,文字之類版權(quán)申明,因?yàn)榫W(wǎng)站可以由注冊(cè)用戶自行上傳圖片或文字,本網(wǎng)站無法鑒別所上傳圖片或文字的知識(shí)版權(quán),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除。 |