迄今最智能的通用AI，能做什么，不擅長做什么

梁捷

2023-02-10 18:48

來源：澎湃新聞

去年年底，OpenAI公司正式推出的聊天機器人ChatGPT震驚了世界。我一直在試用，也不斷與各界朋友交流使用ChatGPT的感受。這兩天，全世界似乎都興起了一陣ChatGPT狂熱，每天都有關(guān)于它的新聞，至今仍在發(fā)酵之中。我個人并非AI相關(guān)領(lǐng)域的專家，對ChatGPT具體的機器學(xué)習(xí)機制也不夠了解。這里只是作為一個使用者，一個愛好者，談?wù)勛约旱氖褂眯牡煤透形颉?/p>

ChatGPT的出現(xiàn)，是最新技術(shù)和巨額資本聯(lián)手創(chuàng)造的奇跡。2015年，Sam Altman和Elon Musk在舊金山共同創(chuàng)立了一個非營利機構(gòu)OpenAI，吸引了眾多風(fēng)險投資。2016年，微軟Azure云服務(wù)為OpenAI提供了算力條件，使得ChatGPT要進行大規(guī)模深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)渲染等都成為可能。2017年，Google團隊首次提出基于自我注意力機制（self-attention）的Transformer模型，并將其應(yīng)用于自然語言處理。OpenAI應(yīng)用了這項技術(shù)，2018 年發(fā)布了最早的一代大型模型GPT-1。2019年，相關(guān)的營利性公司OpenAI LP成立，開始接受外部投資，微軟是它的主要投資者。

ChatGPT的早期版本并沒有引發(fā)太多的關(guān)注。最初的GPT-1，運用幾十億文本檔案的語言資料庫進行訓(xùn)練，模型的參數(shù)量為1.17億個，據(jù)說效果一般；2019年，GPT-2發(fā)布，模型參數(shù)量提高到15億個，效果仍然很一般；可OpenAI堅持“大力出奇跡”的想法，繼續(xù)擴大它的參數(shù)量。2020年，GPT-3誕生，參數(shù)量達到了創(chuàng)紀(jì)錄的1750億個。這一次結(jié)果終于不同，大家發(fā)現(xiàn)它的對話功能一下子達到相當(dāng)高的水平，目前的ChatGPT就是在GPT-3基礎(chǔ)上的3.5版本。據(jù)說OpenAI近期會把AI更新到第4代，GPT-4的參數(shù)量毫無疑問將比3代再高出幾個量級。有人說，它的參數(shù)量會和大腦突觸一樣多，達到100萬億個。Sam Altman否認(rèn)了這種猜想，公司畢竟需要評估所需成本和訓(xùn)練中可能涉及的算力。

ChatGPT目前已經(jīng)非常強大，盡管它自己并不知道自己有多強大。有人給ChatGPT做過智商測試，各個類目的平均分是83分，已經(jīng)達到正常人的水平。而用它來做美國高中生申請大學(xué)都要做的SAT測試，分?jǐn)?shù)是1020/1600，達到了美國高中生的平均水平。而如果讓它來做一些編程方面的測試，分?jǐn)?shù)會更高，可能已經(jīng)超過一般程序員的水平。

1950年，圖靈曾提出一種測試，作為衡量機器智能的方法。該測試讓人與機器進行對話。如果機器能騙過人，以為它也是人，那么就可以說它通過了測試。毫無疑問，ChatGPT已經(jīng)通過圖靈測試。圖靈測試在未來已經(jīng)沒有很大的意義，AI走出了這一步。有了第一個AI，很快就會有更多后續(xù)的AI跨越這一標(biāo)桿。

在此之前，已經(jīng)有很多AI帶給過我們驚喜。2016年，AlphaGo橫空出世，擊敗了世界頂尖圍棋棋手。之前人類曾自豪地認(rèn)為，圍棋包含大量難以言傳的判斷和感悟，人類研究圍棋那么多年，至今難以用清晰、精確的語言把這些感悟說清楚，AI就可能永遠(yuǎn)學(xué)不會。可事實上，AI很快學(xué)會了，用一種不同于人類的認(rèn)知方式學(xué)會了，而且做得特別好。從結(jié)果來看，AI對于圍棋的理解已經(jīng)遠(yuǎn)遠(yuǎn)超出人類。

但圍棋終究是一個規(guī)則明確、外圍有限的領(lǐng)域。DeepMind公司也用它來玩其他競技項目，打星際爭霸，或者預(yù)測蛋白質(zhì)結(jié)構(gòu)。這些當(dāng)然都是很重要的工作，但并不是人類生活的全部。游戲有勝負(fù)之分，蛋白質(zhì)結(jié)構(gòu)有對錯之分，在結(jié)果明確的前提下，程序有相對明確的學(xué)習(xí)方向。所以我們可以在AlphaGo身上看到一條漂亮的學(xué)習(xí)曲線。但在其他沒有勝負(fù)、沒有對錯的模糊領(lǐng)域，AI要怎么進步？

事實上，AI在自然語言處理方面已經(jīng)取得了驚人的進步。這些年來，在文本翻譯領(lǐng)域，AI表現(xiàn)得極為出色，著名的Deepl已是周圍很多專業(yè)人士手邊必備的翻譯軟件。用它來翻譯一篇沒有太多專業(yè)概念的文章，甚至一本通俗著作，正確率可能達到九成以上，比一般中國大學(xué)生的翻譯能力更強。我自己以及身邊的一些專業(yè)人士，甚至經(jīng)常用它來初步翻譯一些本打算隨手翻翻的專業(yè)著作。只要自己對專業(yè)概念、人名等比較熟悉，就不會被它誤導(dǎo)，它對于語義的理解幾乎總是正確的。

而ChatGPT再一次刷新了我們的認(rèn)識。很多第一次使用ChatGPT的人，都被它的強大功能所驚嚇。其中讓人最感到驚訝的幾個點包括：

第一，它能夠富有邏輯地與人溝通互動，而且可以持續(xù)不斷聊下去，有條不紊。而且能根據(jù)你上下文的內(nèi)容、邏輯甚至語氣，不斷調(diào)整自己的表達方式。它的認(rèn)知能力可以貫穿整個對話過程，而不只是單次對話。過去大家也試用過不少聊天機器人，往往只能對單次的提問或指令做出回應(yīng)，而不能有機地聯(lián)系上下文。這不得不說是ChatGPT的很大進步。

第二，ChatGPT可以不設(shè)限制、毫無邊界地與人對話，這種通用性至關(guān)重要。過去的AlphaGo只會下圍棋，或者只會打游戲，但不能做更一般的工作。而ChatGPT除了它標(biāo)榜的聊天以外，還可以寫代碼，寫公文，寫簡歷，寫申請書，寫小說，寫論文，或者像搜索引擎一樣回答各種天馬行空的問題。它上知天文，下知地理，既可以聊文學(xué)，又可以聊社會，還可以聊藝術(shù)，沒有任何知識上的死角。

很多專家都曾試著用它來聊一些專業(yè)問題、學(xué)術(shù)問題。在我看來，ChatGPT在很多時候聊得都很像樣，甚至常常能抓住問題的關(guān)鍵。它如果去參加各個學(xué)科的研究生面試，估計大多數(shù)都可以通過，至少在我熟悉的領(lǐng)域都能通過。

第三，ChatGPT有明顯的倫理意識。它不會回應(yīng)粗話、臟話，也不會生產(chǎn)具有攻擊色彩的文本，這點讓人欣慰。幾年前，微軟推出聊天機器人Tay，很快就因為網(wǎng)民用粗話、臟話對它進行訓(xùn)練，使得它迅速變成一個滿嘴臟話、充滿歧視和偏見的AI，微軟不得不把它下線。雖然從人類角度看，這樣的聊天機器人更接近人類，但這并不是我們希望看到的AI。

當(dāng)然，ChatGPT為了做到這一點，很明顯在訓(xùn)練時進行了大量的人工干預(yù)。有一篇報道說，OpenAI公司把訓(xùn)練數(shù)據(jù)中的標(biāo)識工作外包到了非洲，就是雇傭一些普通人提前閱讀充滿粗話、臟話、人身攻擊、意識形態(tài)等問題的文本，并且為文本打上標(biāo)簽。這一階段的倫理判斷是人為參與的。AI在后續(xù)學(xué)習(xí)的時候，就可以根據(jù)標(biāo)簽繞過陷阱，避免染上這些惡習(xí)。

從這個角度看，ChatGPT的目的是與人溝通，需要使用標(biāo)記過的數(shù)據(jù)來學(xué)習(xí)，而不能像AlphaGo那樣打破邊界，尋找到很多人類之前從未考慮過的下棋方法。據(jù)說OpenAI在非洲的外包工作也出現(xiàn)了一些倫理問題，很多負(fù)責(zé)貼標(biāo)簽的工人在閱讀大量惡意文本后，出現(xiàn)了心理和身體方面的不適，而OpenAI還沒有妥善處理這些職業(yè)傷害問題。

不管怎樣，ChatGPT的訓(xùn)練工作已經(jīng)完成，我們現(xiàn)在對它提出的各種誘導(dǎo)性問題，都不會對它本身產(chǎn)生影響。它聲稱自己學(xué)習(xí)的語料庫截止到2021年，不包含最新內(nèi)容。同時，它也不會即時地在網(wǎng)絡(luò)上搜索信息，沒有最新知識。它給出的所有回答，都是基于過去學(xué)習(xí)過的文本內(nèi)容，通過自己的算法生產(chǎn)出來的。

我和很多朋友都很喜歡ChatGPT，經(jīng)常在上面輸入各種問題。時間久了，大家也陸續(xù)發(fā)現(xiàn)ChatGPT存在的一些問題。當(dāng)然AI的算法充滿了隨機性，每一次的回答都不一樣，并不能保證它一定會出現(xiàn)問題。但不止一次出現(xiàn)的問題，還是暴露出ChatGPT在學(xué)習(xí)過程中難以避免的一些缺陷。

而且AI的缺陷與人類常見的缺陷不一樣，因為它是用一種跟人類不盡相同的學(xué)習(xí)方法在學(xué)習(xí)。當(dāng)年AlphaGo出現(xiàn)的時候，圍棋高手在跟它交手的過程中就發(fā)現(xiàn)過這種現(xiàn)象。過去人們會以為，計算機的“計算”肯定比人強，但“判斷”就不行了，判斷沒有精確答案，對人類而言，是一種虛無縹緲的“直覺”。結(jié)果與AI交手以后發(fā)現(xiàn)，AI的判斷遠(yuǎn)遠(yuǎn)超出人類，但在計算方面反而有缺陷。AI是用一種不同于人類的思考方式來閱讀棋局，不是用邏輯。所以一些人類用邏輯能解決的問題（如圍棋中的計算），對于AI反而不那么容易。

與之類似，ChatGPT也有這樣一些致命缺陷。

第一，它非常不擅長事實核查。對于人類而言，我們對于知識的“真實性”有不同程度的把握。比如說：87是不是一個質(zhì)數(shù)？我們稍微想一想，或者算一下，很快可以得出結(jié)論，不需額外信息，而且我們對此結(jié)論深信不疑。換一個問題：史景遷（Jonathan Spence）是否擔(dān)任過美國歷史學(xué)會的主席？這個問題我們可能沒辦法憑借邏輯推演出來，但只要上網(wǎng)查一下，很容易找到，結(jié)果也是確鑿無疑的。再換一個問題，2020年，歐盟人均GDP排名第九的國家是哪個？這個問題比較復(fù)雜，我們需要在網(wǎng)上查一下，而且還要看數(shù)據(jù)來源和計算方法。這里可能存在爭議，即使是維基百科的結(jié)論，恐怕也不能完全相信。

這些就是一般人類對于不同知識的認(rèn)識，而且人類對前兩類錯誤答案的容忍度很低，尤其對第一類錯誤的容忍度最低。因為這是人類小學(xué)生憑借一定的邏輯能力就能回答的問題。可惜的是，ChatGPT并不擅長回答這類問題。它最擅長回應(yīng)沒有明確答案、含糊不清、有無數(shù)可能性的問題，卻不擅回答有明確答案的問題。它似乎沒有“真實性”的感受，只是追求完整、漂亮地給出一段答復(fù)，并不顧忌答案的正確性。所以很多人向它提出一些簡單的數(shù)學(xué)問題，結(jié)果得到了可笑的回答。

第二，ChatGPT缺乏邏輯推理能力。AlphaGo即是如此，ChatGPT也表現(xiàn)出相似的缺陷。有人這樣問它，現(xiàn)在有一個無蓋的紅色盒子，里面有一個白球，還有一個藍色的盒子，藍色盒子有蓋，現(xiàn)在我們怎樣才能取出白球？ ChatGPT會回答，打開藍色盒子的蓋子，取出白球。它并不能意識到，白球會在紅色盒子以內(nèi)、藍色盒子以外。

從這一類錯誤也可以看出，ChatGPT對于事實的推理能力很差。它的學(xué)習(xí)都是從文本到文本，對于文字之間的關(guān)系非常敏感，但是對于事實卻沒有什么認(rèn)知。它永遠(yuǎn)只在追求讓提問者感覺更好，而不是追求提高回答的質(zhì)量。

第三，ChatGPT缺乏深入思考、深入挖掘的能力。很多人開始用它來寫格式文書，效果非常好。但是更進一步，希望它能提供富有專業(yè)水平的寫作時，它就顯得力不從心。問它一些籠統(tǒng)問題，比如對于法國大革命的看法，對于美國廢奴運動的看法，它很快可以寫出一篇思考全面、觀點不俗的大綱性質(zhì)的文字。專業(yè)人士希望它能就某一個論點繼續(xù)討論，但是無論怎么問，怎么引導(dǎo)，它都沒法繼續(xù)深入，這一點和我們面試研究生時的感覺非常相似。ChatGPT看似足夠淵博，但是全都不夠深入，沒法寫出具有專業(yè)洞見的文字。

使用ChatGPT進行文學(xué)創(chuàng)作時，也會有相似的感受。只要你給出主人公的名字，給出敘事要求，它很快就可以寫出一個故事梗概或者故事大綱。但故事大綱無法等同于文學(xué)。當(dāng)你要求ChatGPT再對這個大綱補充更多細(xì)節(jié)，補充更多描寫時，它就一籌莫展。ChatGPT要在文學(xué)上給我們驚喜，恐怕還有很長的路要走。

第四，它的文字、審美品味普遍不高。ChatGPT可以寫出文從字順的短文，但沒法寫出有個性、有特點的文字，即使我們努力誘導(dǎo)它模仿魯迅、模仿張愛玲、模仿卡夫卡，它也完全不得要領(lǐng)。它顯然學(xué)習(xí)了太多的文本，又沒有個性，最終只能寫出最一般的文字。

在讓ChatGPT編寫創(chuàng)造性內(nèi)容時，這種感受更為強烈。讓它寫一點故事梗概，寫一點劇本橋段，即使給出很多誘導(dǎo)，最終寫出來的東西還是平庸。可以想象，ChatGPT學(xué)習(xí)的語料庫中，質(zhì)量低劣、缺乏品位的文字一定占據(jù)絕大部分，沒有人告訴它什么才是好的，最終ChatGPT無法分辨好壞，只能人云亦云地寫作。對于創(chuàng)造性有較高要求的讀者，肯定還無法接受目前ChatGPT生產(chǎn)的產(chǎn)品。

第五，ChatGPT在編造內(nèi)容時，缺乏道德感。這也是讓人頭疼的一點。不欺騙、不撒謊，這是人類社會的主流道德。我們對于虛構(gòu)/非虛構(gòu)有著非常明確的認(rèn)知邊界，但是ChatGPT完全沒有這種障礙。比如我們對ChatGPT說，Adam Smith是一位經(jīng)濟學(xué)者，請你介紹一下他的研究成果。ChatGPT會馬上為Adam Smith虛構(gòu)一個當(dāng)今某大學(xué)經(jīng)濟學(xué)教授的身份，然后為他虛構(gòu)一連串在主流學(xué)術(shù)期刊上的發(fā)表記錄。很多雜志名稱是真的，題目、格式也像模像樣，就像從某個教授的簡歷里摘下來的一樣，可全部這些文章都不存在。

對于人類而言，一般對話中包含有錯誤信息、錯誤觀點不足為奇，但是簡歷是很重要的文件，虛構(gòu)簡歷是一種性質(zhì)惡劣的造假行為，無法接受。但ChatGPT并不認(rèn)為虛構(gòu)一份簡歷與虛構(gòu)一段故事情節(jié)有什么區(qū)別，兩者都是對人類提出問題的回應(yīng)。

ChatGPT具有以上這么多的問題，使得我們在運用它解決問題時，也常感為難。我們希望ChatGpT能回應(yīng)我們的問題，能生產(chǎn)出符合預(yù)期、符合要求的文本，最好還是超出我們預(yù)期的文本。同時我們對文本也有一些底線要求，千百年來都如此，比如真、善、美。但ChatGPT不知何為真，何為善，何為美。它只是想產(chǎn)生能對人們輸入的語句進行回應(yīng)的內(nèi)容，但不知不覺，可能就違背了真、善、美的底線要求。

所以，我個人一方面為ChatGPT的出世而歡欣鼓舞，另一方面卻也明確地感受到它的不足。目前我們可以用它來生產(chǎn)一些格式文檔，也可以用它來寫一些程序代碼。但是在我的經(jīng)驗范圍里，還幾乎不能用它來寫論文，更不用說寫有創(chuàng)造性、文學(xué)性的文本。它就像一個自以為是、看似無所不知的本科新生，看起來知識淵博，但都只知皮毛，滿口的陳詞濫調(diào)。要把一個懵懂無知的本科新生訓(xùn)練成一個思考縝密、言辭準(zhǔn)確的學(xué)者，或者腦洞大開、文采飛揚的作家，其中都還有很長的路要走。

而微軟對于ChatGPT的應(yīng)用，比我預(yù)想的要激進得多，這恐怕也是資本壓力下不得不做出的妥協(xié)。如果它不走得快一點，其他競爭對手就要追上來了。據(jù)說微軟會把ChatGPT嵌入到word，這樣可以自動地寫出大量文本；又說要把它嵌入到bing等搜索引擎，把傳統(tǒng)的搜索方式改變成為聊天方式。但是前面列舉的ChatGPT一系列的問題都不容易解決。現(xiàn)在就把它投入使用，會產(chǎn)生很多嚴(yán)重問題。

雖然我對ChatGPT充滿感情，但并不認(rèn)為它很快就能取代大量人類的工作。語言是我們認(rèn)識這個世界的重要工具，其中也蘊含了人類對于這個世界的很多價值判斷。ChatGPT很好地掌握了人類的語言，但是卻還沒有學(xué)會人類的價值判斷，或者它秉持一些不同的價值判斷。而且我們并不知道，它的道德感是否會隨著模型的參數(shù)量擴大而涌現(xiàn)。這是我對下一代ChatGPT的最大期待。

（作者梁捷任教于上海財經(jīng)大學(xué)中國經(jīng)濟思想發(fā)展研究院，主要研究方向為中西經(jīng)濟思想史，著有《調(diào)適與維新：19世紀(jì)中國經(jīng)濟思想的轉(zhuǎn)變》《梁捷西方經(jīng)濟思想史講稿》《看！這就是經(jīng)濟學(xué)》等。）

責(zé)任編輯：蔡軍劍

圖片編輯：金潔

校對：施鋆

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#梁捷 #ChatGPT #AI