- +1
AI對齊:讓人工智能擁抱人類的價值觀 ?
布萊恩?克里斯在其著作《人機對齊》中,為我們描繪了一個與日俱增的現代困境。隨著人工智能技術的迅猛發展,我們好似置身于一部現代版的“魔法師學徒”的故事中。如同初出茅廬的巫師,我們召喚出強大而不可知的力量——人工智能。我們給它下命令,期望它既能自主運作又能絕對服從。但當我們意識到指令的不完整或不精確時,又陷入驚慌失措,拼命阻止它,擔心自己的智慧不慎喚出了某種無法控制的怪物。

《人機對齊》,布萊恩?克里斯汀 著,唐璐 譯,湖南科學技術出版社2023版
這種情境引發了一系列問題:如何防止人工智能偏離我們的預期,造成災難性的背離?我們該如何確保它能夠理解并遵循我們的規范和價值觀?最關鍵的是,我們怎樣才能確保人工智能按照我們所期望的方式行動?這就是所謂的“人工智能對齊問題”(the AI alignment problem)。它目前已經超越“人工智能安全”(the AI safety),成為人工智能領域中最為核心和緊迫的議題之一。
那么,究竟什么是“人工智能對齊”?為什么這個概念在當今世界如此重要?讓我們先放下技術細節,轉而關注一個之前的熱點新聞。如果讓我來評選2023年度人工智能十大事件,“ChatGPT之父”山姆·奧特曼和OpenAI董事會的“宮斗劇”一定會名列榜單。回溯到2023年11月17日,OpenAI這家舉世聞名的人工智能初創公司突然宣布解雇其CEO山姆·奧特曼。隨后的5天里,經歷了一系列復雜的政治紛爭,被罷免的奧特曼又重返高位。這場發生在硅谷的內斗,被外界廣泛視為人工智能領域的“靈魂之戰”。
爭端背后,其實折射出對人工智能未來兩種截然不同的視角。一方面是我所稱的“人工智能技術加速主義”,代表人物就是山姆·奧特曼。他們主張無條件加速人工智能技術的創新發展,并快速推出創新內容來顛覆社會結構,讓人類隨著技術的進步而進化。另一方面則是“人工智能對齊主義”,這一派的代表人物是要把山姆·奧特曼趕出董事會的首席科學家伊利亞·蘇茨克維。他們認為,人工智能雖然能力強大,但在道德和倫理層面仍然存在混沌,我們在弄清楚它的本質之前,最好持謹慎態度。
在OpenAI內部的這場紛爭中,一個深刻的問題浮現出來:隨著人工智能技術的飛速發展,我們是否已經做好準備迎接超級人工智能的誕生?許多研究者強調,在這種強大的智能形式出現之前,解決人工智能對齊問題是至關重要的。那么,人工智能對齊究竟是什么呢?簡而言之,人工智能對齊就是確保人工智能系統的目標、決策和行為與人類的價值觀和利益相一致,避免出現人工智能選擇執行與人類意圖不一致的行為。
這種對齊不僅是技術層面的挑戰,更涉及深層的倫理和道德問題。它要求我們在推進技術的同時,也要考慮如何使這些強大的工具服務于人類的長遠利益。如果處理不當,可能導致不可預測的后果:人工智能的行為可能會背離我們的意圖和利益,甚至可能帶來無法預料的災難。
2018年,在美國亞利桑那州坦佩市,一輛優步自動駕駛汽車撞死了過馬路的伊萊恩·赫爾茨貝格。美國國家交通安全委員會的審查發現,造成這一悲劇的原因之一,在于“系統從未將她歸類為行人……因為她在沒有人行橫道的地方過馬路;該系統的設計沒有考慮亂穿馬路的行人”。這個案例突顯了人工智能對齊在自動駕駛領域的至關重要性。僅僅遵循交通規則是不夠的,我們還需要確保:在保護乘客和行人安全方面,自動駕駛汽車的人工智能系統,能夠做出符合人類道德和倫理標準的決策。
2023年12月底,杭州市上城區網警破獲的一起重大勒索病毒案件,進一步揭示了人工智能對齊問題的復雜性。該犯罪團伙成員都具備網絡安防的專業資質,并在犯罪過程中利用ChatGPT優化其程序。這些犯罪分子分工合作,一方面編寫勒索病毒,另一方面借助ChatGPT進行程序優化,最后實施網絡敲詐勒索。這一事件不僅展示了人工智能技術在誤用時的潛在危害,也凸顯了防止其被用于有害目的的重要性。
在《人機對齊》中,布萊恩?克里斯也列舉了一系列引人深思的實例:越來越多的美國州法和聯邦法,允許使用“風險評估”軟件來決定保釋和假釋。越來越多的自動駕駛汽車,在高速公路和城市的大街小巷中穿梭。貸款申請、求職簡歷甚至醫學檢查的結果,往往不再需要人工審核便可得出。這種趨勢仿佛表明,21世紀初的人類正試圖將社會的管理交給人工智能,就像將駕駛汽車的任務交給自動駕駛系統一樣。
然而,這里存在一個極為關鍵的問題:如果人工智能模型缺乏價值觀對齊,它們可能輸出具有種族或性別歧視的決策,協助網絡黑客編寫用于網絡攻擊和電信詐騙的代碼,或者在更極端的情況下,它們甚至可能試圖說服或幫助有自殺念頭的用戶結束自己的生命。這些例子清楚地表明:我們需要確保人工智能系統不僅在技術上高效,而且在道德和倫理上符合人類社會的基本價值觀。
因此,為了確保大模型的安全性、可靠性和實用性,我們必須防止它產生有害輸出或被濫用。2024年1月,谷歌DeepMind的機器人團隊宣布了一項雄心勃勃的計劃:建立一個名為“AutoRT”的系統。這個系統將作為“機器人憲法”,指導機器人在收集和使用訓練數據時的行為。這部“機器人憲法”的構思,明顯受到科幻作家艾薩克·阿西莫夫“機器人三定律”的啟發。這三條定律要求:機器人不得傷害人類或見人受傷而無動于衷;應服從人類的命令,但這些命令不能與第一條定律相沖突;機器人應保護自己的安全,但不得違背前兩條定律。
“機器人憲法”將通過“以安全為重點的提示”來指導大語言模型,避免選擇可能對人類和動物造成風險的任務。這不僅僅是一種技術上的限制,實際上,它代表著對人工智能進行道德編碼的一種嘗試,確保它的行為和決策過程符合人類的倫理和道德標準。通過這樣的措施,我們可以朝著創建更加可靠和負責任的人工智能系統邁進。
實現人工智能對齊無疑是一個錯綜復雜的挑戰,目前這個領域還沒有找到一個完全的解決方案。然而,科學家們已經提出了一些富有前景的方法和思路。其中之一是利用人類反饋來訓練人工智能系統。這意味著研究者們需要對人工智能的行為進行持續的監督和評估,以便及時發現并糾正任何與人類價值觀不一致的行為,進而對系統進行調整和改進。此外,也可以開發人工智能系統以輔助人類進行這種評估,確保其決策過程更加透明和可靠。甚至,可以考慮專門訓練一個用于人工智能對齊研究的人工智能系統,以更深入地理解和解決對齊問題。
在這篇文章中,我們不會深入探討上述這些技術細節,但是,無論選擇何種技術路徑,都必須面對一個核心問題:如果讓人工智能遵循人類的價值觀,它究竟應該向誰看齊?
斯坦福大學的計算機科學家斯特法諾·埃爾蒙(Stefano Ermon)曾指出,雖然大多數人都認同人工智能對齊人類價值觀這一理念,但挑戰在于定義這些價值觀究竟是什么。畢竟,不同文化背景、社會經濟地位和地理位置的人們對價值觀有著截然不同的理解。
以ChatGPT等大模型為例,它們大多由美國公司開發,并以北美數據為基礎進行訓練。因此,當這些模型被要求生成各種日常物品時,他們會創建一系列美國式的物品。隨著世界充滿越來越多人工智能生成的圖像,反映美國主流文化和價值觀的圖像將充斥在日常生活中。這不禁讓我們思考:人工智能是否會成為一種文化輸出的工具,從而在全球范圍內影響其他國家和文化的話語表達方式?
在這個階段,我們面臨著選擇合適價值觀的挑戰。這里的難題并非僅僅讓人工智能模仿人類,而要決定它應該模仿怎樣的人類特質。人類本身的不完美性——包括多樣化的價值觀、個人偏好、缺點,乃至歧視傾向——都可能無意中被編碼進人工智能。在為人工智能制定價值觀時,除了要尋找不同文化和價值觀之間的共識,還要考慮如何融合這些共識,來塑造一個更全面、更公正的人工智能。這就要求我們開發出更先進的道德和倫理規則,以確保人工智能不僅反映人類的優點,同時也能避免我們的缺陷。
為此,我產生了一個更加激進的想法,為什么人工智能對齊一定要和人類對齊?也許我們應該探索一種與人類截然不同的、獨立于人類局限性之外的價值體系。2018年,人類未來研究所的尼克·博斯特羅姆說過這么一句話:“人類的技術能力和人類的智慧在進行一場長距離賽跑,前者就像疾馳在田野上的種馬,后者更像是站不穩的小馬駒”。這個比喻不僅揭示了技術發展和人類智慧之間的失衡,也暗示了我們在構建人工智能價值觀時可能存在的狹隘視角。
也許,在人工智能的發展中,我們不應該局限于模仿人類現有的思維和行為模式。相反,我們可以探索更廣闊的可能性,例如基于人類理想中的倫理和道德原則,甚至完全超越人類經驗的新型智能。人工智能模型應該超越人類能力的局限性,而不僅僅是復制人類能力的局限性,這才是人工智能對齊故事中最激動人心的一幕。它給了人類一個審視自我的機會。這種全新的價值觀對齊方式,可能是我們在面對不斷發展的技術時所需的一次重大飛躍。
(作者胡逸為大數據工作者)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司