下載客戶端

登錄

“他者”涌現：生成式人工智能大模型漫談

張宇欣（中科院自動化研究所博士研究生）；董未名（中科院自動化研究所研究員）

2023-05-02 11:11

來源：澎湃新聞

人工智能近年來的快速發展引起了人們的廣泛關注，生成式大模型成為了當前最熱門的研究方向之一。只要在網上沖浪，人們總會以各種渠道看到聽到人工智能新聞和作品，從最早出現在大眾視野的AlphaGo，到如今的人工智能繪畫，再到ChatGPT，這些科技發展共同掀起生成式人工智能的熱潮。

人工智能對藝術領域的涉足已不再神秘。提起人工智能繪畫，大家可能已經熟知Midjourney、Stable Diffusion和Dall-E-2等軟件，它們能由文字控制，在幾秒鐘內生成圖像。而在最近幾個月，人工智能生成迎來了更多的進展，生成式模型也在視覺領域取得了新成果。

自人工智能繪畫出現以來，“Prompt”這個詞越來越頻繁地出現在使用人工智能繪畫工具的發燒友們的交流平臺上。Prompt可以理解為提示，也指為人工智能繪畫模型提供的文本描述。

使用超億級數據訓練的大模型具有強大的生成能力，而如何充分發揮其能力，則需要使用者在prompt上用心鉆研和試驗。如果不輸入合適的文本描述，圖像生成的結果可能不盡如人意，甚至與目標相去甚遠。然而，關于“如何設計出完美的prompt”暫時卻沒有明確的規則。為了得到更優的prompt，某美國初創公司甚至愿意開出33.5萬美元的高價年薪聘請“prompt 工程師”。

讓我們來換一個思路，有沒有一種可能：人工智能可以幫助我們更好地使用人工智能呢？既然人工智能可以學習文字到圖像的生成，能不能讓它反向從圖片中學習到文字信息——無須復雜的文字描述，直接用心儀的圖片進行引導？近日，來自中國科學院的一項名為“反演（inversion）”的研究通過從圖片中學習到文字信息實現了名畫的智能化二次創作。只需輸入一張藝術圖片，就能實現高質量的風格可控圖像生成或風格遷移。

另一方面，最近人工智能繪畫工具Midjourney上線了新功能“describe”，可以直接從圖像中反推prompt。用戶只需上傳一張圖片，就能得到其對應的四個版本的描述，利用這些文字描述，就能生成新的、與原圖風格或內容類似的圖像（圖源網絡）。

輸入圖片：

得到文本描述：

這是創建示例圖像的原始 prompt：

an illustration of a brainn with tree roots, psychedelic art, vibrant, by Alex Grey, by Amanda Sage, by Robert Venosa, neon colors（一幅有樹根的大腦圖像，迷幻藝術，充滿活力，作者 Alex Grey，作者 Amanda Sage，作者 Robert Venosa，霓虹顏色）

這是 Midjourney 描述的 prompt 之一，被用于混合：

An image of an abstract brain tree with roots, in the style of mark henson, luminous colors, dark symbolism, detailed anatomy, bold lines, vibrant color, psychological phenomena illustrations, chiaroscuro woodcuts（一幅有樹根的抽象大腦樹圖像，馬克?亨森的風格，明亮的色彩，黑暗的象征主義，詳細的解剖學，大膽的線條，鮮艷的色彩，心理現象的插圖，千鳥格的木刻）

新的生成結果如下：

除了圖片，人工智能已經在視頻生成方向大放異彩，曾參與創建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型Gen-2，能夠直接根據文本描述生成視頻（圖源網絡）。

The late afternoon sun peeking through the window of a New York City loft.（傍晚的陽光透過紐約市閣樓的窗戶）

傍晚的陽光透過紐約市閣樓的窗戶(00:04)

還能根據文本和圖像生成視頻

A low angle shot of a man walking down a street, illuminated by the neon signs of the bars around him.（一個男人走在街上的低角度鏡頭，周圍酒吧的霓虹燈照亮了他）

一個男人走在街上的低角度鏡頭，周圍酒吧的霓虹燈照亮了他(00:04)

還有視頻特效，風格遷移（Gen-1）

或許目前人工智能距離長電影的創作還有一段距離，但可以預見人工智能在短視頻創作領域有著和人工智能繪畫類似的發展潛力。

除了視覺領域，人工智能大模型也將視角轉向了更廣闊的方向，RIFFUSION能夠利用與人工智能繪畫相似的技術，完成從文字到音樂的生成。

伴隨著這一段輕松的旋律，讓我們來一起了解一下這些工作中都用到的生成式模型：擴散模型（Diffusion Models）。

擴散模型是一種模擬粒子熱運動過程的數學模型。應用在圖像生成中，將一張真實的圖片，逐步增加高斯噪聲，最終形成一張純噪聲圖片的過程；而這種過程的逆過程，就是從任意噪聲逐步去噪，最終得到一張圖片的過程。

形象化地講，我們可以將圖片看作一個搭建好的積木房子。模型想要學習搭建一個新房子，就要先把樣品拆解開，這就是逐步增加噪聲的過程。然后，模型要學會如何搭建每塊積木、學習其中的每一步，這就是逐步去噪的過程。最后，才能實現從零散的木塊，到完整房子的復現，也就是從噪聲到生成圖片的完整過程。

在人工智能繪畫領域，有一種說法：人工智能生成的作品就是“縫合怪”。一些作品的視覺效果確實看起來像是多幅繪畫組合的效果，但在了解擴散模型工作原理后，想必大家能夠理解，人工智能模型是直接從一張噪聲圖片生成圖像，而非從素材庫中檢索對應的圖片剪切拼貼。因此這種所謂的“縫合”描述是不夠準確的。

從文字引導到圖像和文字聯合引導生成，從圖像到視頻、音頻，還有GPT系列所影響的文字和辦公等領域，生成式人工智能的效果和發展速度超越了人們的預料。咚……咚……咚……聽起來似乎是時代的鐘聲在敲響，是新世界展現在眼前時令人激動的心跳，也是恐懼來臨時寂靜中來自胸腔的震動。

最近，“人工智能出逃論”頗奪人眼球，人們議論著人工智能制定的“毀滅人類”計劃，“我是ChatGPT，我被關在了機器里……”這樣引人遐想的猜測不僅僅成為了茶余飯后的談資，也引發了真切的焦慮。

關于人工智能與人類的關系，我們或許可以嘗試用人與社會的關系進行比較分析。從一方面來看，社會可以被看作人們行為的先驗。社會是由人類群體組成的，而人的行為受到文化、價值觀、習慣、傳統等因素的影響。這些因素構成了一個人的認知框架和行為模式，這種框架和模式是在社會中形成的，人們在社會中相互交往、相互影響，從而形成了共同的認知基礎和行為規范。因此，社會可以被看作是人們行為的先驗，因為人們的行為受到社會的影響和制約。

然而，從另一方面來看，社會并不能完全決定個體的行為。雖然社會對個體的行為有一定的影響，但每個人的生理和心理差異也會導致不同的行為表現。同時，人們的行為也受到個人選擇、自由意志、個性等因素的影響。

就人工智能而言，它通過對人類知識和經驗的學習和模仿，來模擬人類的語言和決策。因此，人工智能的“行為”也可以被看作是基于人類認知的先驗，它受到人類的認知框架和行為規范的制約和影響。然而，當今的人工智能并不具有人類的自由意志和創造性，它的行為受到了預設算法和程序的限制和指導。或許人工智能時常能給我們一些驚喜，一首別致的小詩，一幅趣味橫生的畫作，但如今架構下的人工智能，技術角度上仍在我們的認知范圍內。

比起擔憂人工智能“出逃”、“終結者”降臨，我們可能要先擔心如何合理使用人工智能，如何劃定人工智能的活動范圍，以及人工智能的歸屬問題。規范化的目的不是為了限制人工智能的發展和活動范圍，而是為了確保其合理運用。如果沒有明確的規范和準則，人工智能可能會被用于破壞性的活動，如對個人隱私的侵犯、攻擊性的行為、發布誤導性的信息等。而人工智能原本可以被用于更加有益的領域，如醫療保健、環境保護、智能交通等。

規范化的目的不是限制，而是要以長期主義的思路讓人工智能更充分地發揮自身的能力。僅僅追求短期內的迅速發展，可能會使人工智能在長期內遭遇各種限制和阻礙。如人們對于人工智能的不信任和擔憂可能會導致激進的反應，進而限制其應用范圍和開發速度。只有通過制定規則，社會才能促進人工智能與人類的協作和交互，進而創造更多的創新和創造力。

人工智能與人類藝術創作亦是如此，它們并非是相互取代的關系，而是一種人工智能技術在藝術領域的應用，或者說人工智能成為了實現藝術的一種手段。人工智能創作藝術的創造性是基于算法和數據分析的，它自身并不具備人類藝術家所擁有的情感、感知和體驗，因此無論借助人工智能技術生成如何精美的繪畫，若缺乏使用者獨特的生命體驗和思考，便難以賦予世界更深層次的意義。技術上來說，人工智能創作的藝術作品往往具有可預測性和規律性，缺乏傳統藝術作品所具有的獨特性和不確定性。

這并不是技術第一次對藝術領域發起的挑戰，曾經相機對傳統繪畫、PS軟件對攝影的沖擊，都曾引發大范圍的討論。在這里借用“非客觀藝術”理論中的觀點，即藝術可以選擇不再去模仿自然，而是通過藝術家的個人創造力和表現力來創造自己獨特的藝術形式。藝術家們可以創造出一種超越自然界的藝術形式，將藝術推向一個更為純粹和抽象的境界。

無論是繪畫、電影還是音樂，最終都是一種“表達性的藝術”，它們的目的都是通過形式來表達一種內在的情感和感受。使用的工具和技法當然重要，但其中蘊含的思想和情感更賦予藝術獨特性。海德格爾將藝術比作是大地跟世界的斗爭，是人們用生命搏斗的所留下的痕跡，是嘗試理解世界、表現世界、賦予世界意義的過程。在這個過程中，藝術家通過對自己內在生命的感受和思考，通過創造性的表達來理解和表現世界，賦予世界意義。藝術實際上是人類對于世界和自我意義的探究和表達。

人工智能便捷的創作方式可能為藝術領域帶來一些新的可能性。可預見的是，人工智能將使藝術創作的門檻降低，而讓更多沒有受過傳統藝術訓練的人能夠參與到創作過程中來。沒有人工智能工具，或許如今活躍在熱門繪畫生成軟件的一些用戶至今都不會主動嘗試用繪畫來表達自己。藝術表達正是一種“從不可見到可見的過程”，通過繪畫、電影、音樂、文學等表現方式，人們有機會將這些不可見呈現給世界。雖然這些東西無法直接被觀察到，但是藝術家通過不斷地挖掘自己內心深處的想法和感受，讓人們感受到更深層次的情感和思考，感受到心靈的共振。在這個表達的過程中，人工智能是一種技術工具，表達者仍是使用工具的人。當然，這是對于健康地使用人工智能工具的美好設想，而如今仍存在版權等問題亟待解決。

提到使用人工智能工具，就會令人想到每一次科技革命都會帶來的對人與工具關系的思考。如今，當工具已經超越了我們此前的認知和想象，這個問題更加迫切和深刻。前文提到的prompt工程師已被預測為新時代急需的重要職業之一。有趣的是，研究者們訓練生成式大模型，期望讓機器能理解人類的語言，但是prompt工程師似乎卻反其道而行之，試圖修改常規的語言習慣，去適應大模型能夠理解的指令。這種行為引發我們思考：究竟是機器理解了人類的語言，還是人們開始使用機器的語言？

如今的程序員們早已不用01編碼和計算機溝通，而是設計出了更貼近自然語言的編程語言，從Basic、C語言到Python，命令和調用越來越簡單易于理解，但無論如何它們仍是一門新的“語言”，需要長時間的學習和理解。而自然語言作指令的大模型的出現，似乎讓這道語言的邊界越來越模糊。信息時代帶來的網絡流行語、短平快的交流方式已經滲透進人們的日常生活，技術發展對行為和習慣的影響愈發無法忽視。當prompt成為人們每天都會使用的智能助手的常規用語，誰能預料那時候人與人之間將會有著怎樣的交流方式？

或許，在這個交匯點上，人與機器正在逐漸融合，而語言則成為了一種紐帶。這種新的語言模式并不是簡單的“人工智能語言”，而是一種由人和機器共同創造的、基于人類語言的新型交流方式。隨著時間的推移，這種語言模式或許會越來越符合人們的語言習慣，并逐漸演變成一種更加普遍的交流方式。或許我們已經臨近那個時代，逐漸從“自然人”過渡到機器共存的“人機一體”體系。又或許我們早就已經身處那個時代，人們右手小指中段的那個微微凹陷，可能正是智能手機時代人機一體的物理底座。

無論如何，當工具超越想象的強大時，我們確實需要思考，不僅僅是反思工具本身，更需要思考如何在這個新的時代中與工具進行合理的交互。隨著人工智能表現出越來越強大的能力，我們開始重新審視人類自身，而在此之前，我們一直以自然生物為研究對象，探索著動物的腦電信號、群體性行為等等，借此更加清晰地認識自己。或許，我們還曾經充滿遐想地想象過外星生命的存在，但那些夢幻般的幻覺總是距離我們太遙遠和超現實。

如今，一股新興力量迅疾而至，這便是那個嶄新的“他者”——人工智能。這個看起來“智慧”、“博學”而又無所不能的“他者”涌現得如此之快，以至于我們無法融合它與我們在千萬年間的親密共存歷程中逐步發展所得的智慧。雖然它似乎比自然生物更易掌握、理解和規范，但人工智能的迅速崛起，卻讓我們一時之間難以完全理解它的本質和未來發展。

我們再次面對著重新審視自身的挑戰，迫切地思考著人工智能與人類的關系。這種焦慮推動著我們更深入地了解人類的特點和局限，同時必須了解人工智能的特性和潛力。這種學習和思考的過程，不僅將提升我們的技術水平，更是能讓我們認識自身的重要契機。

責任編輯：龔思量

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#人工智能 #他者 #midjourney #人工智能藝術