理解能力提升巨大！文生圖工具DALL·E整合ChatGPT

澎湃新聞記者邵文

2023-09-21 15:13

來源：澎湃新聞

? 未來2% >

·OpenAI向一小群測試人員發布了圖像生成器DALL·E的新版本，并將這項技術整合到聊天機器人ChatGPT中。實際上，DALL·E 3本身就以ChatGPT為基礎構建。

·DALL·E 3的卓越語言對齊能力是建立在堅實的文本GPT基礎之上的。MidJourney實際上沒有太多的推理大腦，這就是為什么需要大量的提示詞。“首先是‘大腦’，其次才是像素——這是構建強大多模態人工智能的方式。”

不用苦思冥想提示詞，通過跟ChatGPT對話就可生成圖像，進一步反饋還可修改細節。

當前最強大的人工智能圖像生成產品之一DALL·E，迎來了一次具有里程碑意義的重大更新。

當地時間9月20日，人工智能開發機構OpenAI向一小群測試人員發布了圖像生成器DALL·E的新版本，并將這項技術整合到聊天機器人ChatGPT中。實際上，DALL·E 3本身就以ChatGPT為基礎構建。根據OpenAI官網消息，DALL·E 3將于10月初向ChatGPT Plus（每月20美元費用）和企業客戶提供。

提示詞：滿月下的街道，熙熙攘攘的行人正在享受繁華夜生活。街角攤位上，一位有著火紅頭發、穿著標志性天鵝絨斗篷的年輕女子，正在和脾氣暴躁的老小販討價還價。這個脾氣暴躁的小販身材高大，老道，身著一套整潔西裝，留著引人注目的小胡子，正在用他那部蒸汽朋克式的電話興致勃勃地交談。圖片來源：DALL·E 3

DALL·E的名稱來自于藝術家薩爾瓦多·達利（Salvador Dalí）和《機器人總動員》的主角WALL-E，第一版于2021年1月首次亮相，第二版發布于2022年4月。

OpenAI此前也提供了將ChatGPT與其他在線服務連接的方式，包括酒店機票預訂程序Expedia、餐廳預訂程序OpenTable和維基百科Wikipedia，但這是其首次將自己最強大的語言模型與最強大的文生圖模型結合在一起，一方面極大降低了提示詞的專業門檻，另一方面對語言的細微之處有了很好展現。

特別擅長生成人類手部圖像

提示詞：一個牛油果坐在治療師的椅子上，說著“我只是覺得內心空虛”，中心有一個坑洞大小的果核。治療師是一把勺子，正在匆匆記錄筆記。

OpenAI首席執行官山姆·奧特曼（Sam Altman）在X（前身推特）上單獨展示了兩幅圖，其中一個是“牛油果看醫生”，提示詞是：一個牛油果坐在治療師的椅子上，說著“我只是覺得內心空虛”，中心有一個坑洞大小的果核。治療師是一把勺子，正在匆匆記錄筆記。

在這條帖子下，有熱心網友在DALL·E 2上嘗試了同樣的提示詞。可以發現其基本看不出治療師的椅子，坑洞也沒有清晰展現，治療師更是沒有。

“牛油果看醫生”。圖片來源：DALL·E 2

在官網上，OpenAI也貼心地給出了一組DALL·E 2（左）和DALL·E 3（右）的對比圖，提示詞為“一幅富有表現力的油畫，描繪了一名扣籃的籃球運動員，呈現出星云的爆炸”。

圖片來源：OpenAI官網

再對比最初版本的DALL·E，則可看出在這一兩年的時間，OpenAI走了多遠。以下是第一版DALL·E根據文字“牛油果型的扶手椅”自動創作的部分圖像。

根據文字“牛油果型的扶手椅”生成圖像。圖片來源：DALL·E

據OpenAI介紹，DALL·E 3的版本比先前的版本能夠生成更具說服力的圖像，它特別擅長生成包含字母、數字和人類手部的圖像，而人類手部的圖像生成一直是這一領域的一個技術難點。

提示詞：一名亞洲血統的中年女性，她的黑發上夾雜著銀色條紋，看上去已經斷裂、破碎、錯綜復雜地鑲嵌在一片碎瓷片海洋中。瓷器上閃爍著潑彩圖案，有光澤的和啞光的藍色、綠色、橙色和紅色和諧地融合，以超現實的動靜結合的方式捕捉到了她的舞蹈。她的膚色像瓷器一樣淺，給她的身材增添了一種近乎神秘的品質。圖片來源：DALL·E 3

據介紹，DALL·E 3的巨大飛躍主要體現在兩大方面。第一，只需要提示詞，ChatGPT可自動對詞語進行拓展，極大地弱化了提示工程的約束，生成圖畫細節更多、描述更精準；第二，因為ChatGPT原生，模型在理解用戶指令及將文本轉化為圖片的能力增加了。OpenAI表示，DALL·E 3比以往系統更能理解細微差別和細節，讓用戶更加輕松地將自己的想法轉化為非常準確的圖像。

英偉達高級人工智能科學家范吉姆（Jim Fan）在X上表示，我認為DALL·E 3不僅僅是應對MidJourney的競爭。實際上，它是對即將到來的大規模多模態語言模型之間的史詩級對抗，以及與DeepMind的Gemini之間競爭的預演。據谷歌旗下DeepMind CEO戴密斯·哈薩比斯（Demis Hassabis）在最近的采訪中透露，一旦Gemini上市，它將比OpenAI的 ChatGPT更強大。

自從去年ChatGPT走紅以來，硅谷科技巨頭之間已經展開了一場爭奪領先位置的人工智能競賽。谷歌在最近發布了聊天機器人Bard的新版本，將其與谷歌最受歡迎的幾項服務如Gmail、YouTube和Docs連接起來。Midjourney和Stable Diffusion等其他圖像生成器也在今年夏天更新了模型。

范吉姆認為，“DALL·E 3是在ChatGPT的基礎上本地構建的”，是OpenAI關于DALL·E 3的介紹中非常關鍵的一句話。DALL·E 3的卓越語言對齊能力是建立在堅實的文本GPT基礎之上的，MidJourney實際上沒有太多的推理大腦，這就是為什么需要大量的提示詞。“首先是‘大腦’，其次才是像素——這是構建強大多模態人工智能的方式。”范吉姆寫道。

圖像生成技術引發安全擔憂

“最新版本的DALL·E可以根據多段描述生成圖像，并且可以詳細遵循分鐘級別的指示。”OpenAI研究員加布里埃爾·吳（Gabriel Goh）說。但他也表示，與所有圖像生成器和其他人工智能系統一樣，它也容易出錯。

專家警告稱，圖像生成技術可以用于在網絡上傳播大量虛假信息。為了防范DALL·E 3出現這種情況，OpenAI已經整合了旨在防止問題圖像的工具，其還試圖限制DALL·E模仿特定藝術家風格的能力。

最近幾個月以來，人工智能已被用作視覺虛假信息的來源。5月，一張關于五角大樓爆炸的虛假圖片引發了股市的短暫下跌，這只是其中一個例子。