AI對齊：讓人工智能擁抱人類的價值觀 ?

胡逸

2024-02-02 08:08

來源：澎湃新聞

布萊恩?克里斯在其著作《人機對齊》中，為我們描繪了一個與日俱增的現代困境。隨著人工智能技術的迅猛發展，我們好似置身于一部現代版的“魔法師學徒”的故事中。如同初出茅廬的巫師，我們召喚出強大而不可知的力量——人工智能。我們給它下命令，期望它既能自主運作又能絕對服從。但當我們意識到指令的不完整或不精確時，又陷入驚慌失措，拼命阻止它，擔心自己的智慧不慎喚出了某種無法控制的怪物。

《人機對齊》，布萊恩?克里斯汀著，唐璐譯，湖南科學技術出版社2023版

這種情境引發了一系列問題：如何防止人工智能偏離我們的預期，造成災難性的背離？我們該如何確保它能夠理解并遵循我們的規范和價值觀？最關鍵的是，我們怎樣才能確保人工智能按照我們所期望的方式行動？這就是所謂的“人工智能對齊問題”（the AI alignment problem）。它目前已經超越“人工智能安全”（the AI safety）,成為人工智能領域中最為核心和緊迫的議題之一。

那么，究竟什么是“人工智能對齊”？為什么這個概念在當今世界如此重要？讓我們先放下技術細節，轉而關注一個之前的熱點新聞。如果讓我來評選2023年度人工智能十大事件，“ChatGPT之父”山姆·奧特曼和OpenAI董事會的“宮斗劇”一定會名列榜單。回溯到2023年11月17日，OpenAI這家舉世聞名的人工智能初創公司突然宣布解雇其CEO山姆·奧特曼。隨后的5天里，經歷了一系列復雜的政治紛爭，被罷免的奧特曼又重返高位。這場發生在硅谷的內斗，被外界廣泛視為人工智能領域的“靈魂之戰”。

爭端背后，其實折射出對人工智能未來兩種截然不同的視角。一方面是我所稱的“人工智能技術加速主義”，代表人物就是山姆·奧特曼。他們主張無條件加速人工智能技術的創新發展，并快速推出創新內容來顛覆社會結構，讓人類隨著技術的進步而進化。另一方面則是“人工智能對齊主義”，這一派的代表人物是要把山姆·奧特曼趕出董事會的首席科學家伊利亞·蘇茨克維。他們認為，人工智能雖然能力強大，但在道德和倫理層面仍然存在混沌，我們在弄清楚它的本質之前，最好持謹慎態度。

在OpenAI內部的這場紛爭中，一個深刻的問題浮現出來：隨著人工智能技術的飛速發展，我們是否已經做好準備迎接超級人工智能的誕生？許多研究者強調，在這種強大的智能形式出現之前，解決人工智能對齊問題是至關重要的。那么，人工智能對齊究竟是什么呢？簡而言之，人工智能對齊就是確保人工智能系統的目標、決策和行為與人類的價值觀和利益相一致，避免出現人工智能選擇執行與人類意圖不一致的行為。

這種對齊不僅是技術層面的挑戰，更涉及深層的倫理和道德問題。它要求我們在推進技術的同時，也要考慮如何使這些強大的工具服務于人類的長遠利益。如果處理不當，可能導致不可預測的后果：人工智能的行為可能會背離我們的意圖和利益，甚至可能帶來無法預料的災難。

2018年，在美國亞利桑那州坦佩市，一輛優步自動駕駛汽車撞死了過馬路的伊萊恩·赫爾茨貝格。美國國家交通安全委員會的審查發現，造成這一悲劇的原因之一，在于“系統從未將她歸類為行人……因為她在沒有人行橫道的地方過馬路；該系統的設計沒有考慮亂穿馬路的行人”。這個案例突顯了人工智能對齊在自動駕駛領域的至關重要性。僅僅遵循交通規則是不夠的，我們還需要確保：在保護乘客和行人安全方面，自動駕駛汽車的人工智能系統，能夠做出符合人類道德和倫理標準的決策。

2023年12月底，杭州市上城區網警破獲的一起重大勒索病毒案件，進一步揭示了人工智能對齊問題的復雜性。該犯罪團伙成員都具備網絡安防的專業資質，并在犯罪過程中利用ChatGPT優化其程序。這些犯罪分子分工合作，一方面編寫勒索病毒，另一方面借助ChatGPT進行程序優化，最后實施網絡敲詐勒索。這一事件不僅展示了人工智能技術在誤用時的潛在危害，也凸顯了防止其被用于有害目的的重要性。

在《人機對齊》中，布萊恩?克里斯也列舉了一系列引人深思的實例：越來越多的美國州法和聯邦法，允許使用“風險評估”軟件來決定保釋和假釋。越來越多的自動駕駛汽車，在高速公路和城市的大街小巷中穿梭。貸款申請、求職簡歷甚至醫學檢查的結果，往往不再需要人工審核便可得出。這種趨勢仿佛表明，21世紀初的人類正試圖將社會的管理交給人工智能，就像將駕駛汽車的任務交給自動駕駛系統一樣。

然而，這里存在一個極為關鍵的問題：如果人工智能模型缺乏價值觀對齊，它們可能輸出具有種族或性別歧視的決策，協助網絡黑客編寫用于網絡攻擊和電信詐騙的代碼，或者在更極端的情況下，它們甚至可能試圖說服或幫助有自殺念頭的用戶結束自己的生命。這些例子清楚地表明：我們需要確保人工智能系統不僅在技術上高效，而且在道德和倫理上符合人類社會的基本價值觀。

因此，為了確保大模型的安全性、可靠性和實用性，我們必須防止它產生有害輸出或被濫用。2024年1月，谷歌DeepMind的機器人團隊宣布了一項雄心勃勃的計劃：建立一個名為“AutoRT”的系統。這個系統將作為“機器人憲法”，指導機器人在收集和使用訓練數據時的行為。這部“機器人憲法”的構思，明顯受到科幻作家艾薩克·阿西莫夫“機器人三定律”的啟發。這三條定律要求：機器人不得傷害人類或見人受傷而無動于衷；應服從人類的命令，但這些命令不能與第一條定律相沖突；機器人應保護自己的安全，但不得違背前兩條定律。

“機器人憲法”將通過“以安全為重點的提示”來指導大語言模型，避免選擇可能對人類和動物造成風險的任務。這不僅僅是一種技術上的限制，實際上，它代表著對人工智能進行道德編碼的一種嘗試，確保它的行為和決策過程符合人類的倫理和道德標準。通過這樣的措施，我們可以朝著創建更加可靠和負責任的人工智能系統邁進。

實現人工智能對齊無疑是一個錯綜復雜的挑戰，目前這個領域還沒有找到一個完全的解決方案。然而，科學家們已經提出了一些富有前景的方法和思路。其中之一是利用人類反饋來訓練人工智能系統。這意味著研究者們需要對人工智能的行為進行持續的監督和評估，以便及時發現并糾正任何與人類價值觀不一致的行為，進而對系統進行調整和改進。此外，也可以開發人工智能系統以輔助人類進行這種評估，確保其決策過程更加透明和可靠。甚至，可以考慮專門訓練一個用于人工智能對齊研究的人工智能系統，以更深入地理解和解決對齊問題。

在這篇文章中，我們不會深入探討上述這些技術細節，但是，無論選擇何種技術路徑，都必須面對一個核心問題：如果讓人工智能遵循人類的價值觀，它究竟應該向誰看齊？

斯坦福大學的計算機科學家斯特法諾·埃爾蒙（Stefano Ermon）曾指出，雖然大多數人都認同人工智能對齊人類價值觀這一理念，但挑戰在于定義這些價值觀究竟是什么。畢竟，不同文化背景、社會經濟地位和地理位置的人們對價值觀有著截然不同的理解。

以ChatGPT等大模型為例，它們大多由美國公司開發，并以北美數據為基礎進行訓練。因此，當這些模型被要求生成各種日常物品時，他們會創建一系列美國式的物品。隨著世界充滿越來越多人工智能生成的圖像，反映美國主流文化和價值觀的圖像將充斥在日常生活中。這不禁讓我們思考：人工智能是否會成為一種文化輸出的工具，從而在全球范圍內影響其他國家和文化的話語表達方式？

在這個階段，我們面臨著選擇合適價值觀的挑戰。這里的難題并非僅僅讓人工智能模仿人類，而要決定它應該模仿怎樣的人類特質。人類本身的不完美性——包括多樣化的價值觀、個人偏好、缺點，乃至歧視傾向——都可能無意中被編碼進人工智能。在為人工智能制定價值觀時，除了要尋找不同文化和價值觀之間的共識，還要考慮如何融合這些共識，來塑造一個更全面、更公正的人工智能。這就要求我們開發出更先進的道德和倫理規則，以確保人工智能不僅反映人類的優點，同時也能避免我們的缺陷。

為此，我產生了一個更加激進的想法，為什么人工智能對齊一定要和人類對齊？也許我們應該探索一種與人類截然不同的、獨立于人類局限性之外的價值體系。2018年，人類未來研究所的尼克·博斯特羅姆說過這么一句話：“人類的技術能力和人類的智慧在進行一場長距離賽跑，前者就像疾馳在田野上的種馬，后者更像是站不穩的小馬駒”。這個比喻不僅揭示了技術發展和人類智慧之間的失衡，也暗示了我們在構建人工智能價值觀時可能存在的狹隘視角。

也許，在人工智能的發展中，我們不應該局限于模仿人類現有的思維和行為模式。相反，我們可以探索更廣闊的可能性，例如基于人類理想中的倫理和道德原則，甚至完全超越人類經驗的新型智能。人工智能模型應該超越人類能力的局限性，而不僅僅是復制人類能力的局限性，這才是人工智能對齊故事中最激動人心的一幕。它給了人類一個審視自我的機會。這種全新的價值觀對齊方式，可能是我們在面對不斷發展的技術時所需的一次重大飛躍。

（作者胡逸為大數據工作者）

責任編輯：蔡軍劍

圖片編輯：蔣立冬

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#胡逸 #AI對齊