下載客戶端

登錄

OpenAI用GPT4解讀GPT2，打敗魔法的只有魔法

2023-05-12 10:54

來源：澎湃新聞·澎湃號·湃客

來源丨元宇宙簡史

作者丨元宇宙簡史編輯 Eco

【元宇宙導讀】OpenAI最新研究利用GPT-4自動進行大語言模型中神經元行為的解釋和評分，并將其應用于另一種語言模型GPT-2，公開了這些GPT-2神經元解釋和分數的數據集。這項技術讓人們能夠利用GPT-4來定義和自動測量AI模型的可解釋性，從而更好地理解智能是如何工作的。

大語言模型（LLM）是基于大量文本數據訓練，包含數千億或更多參數的語言模型。

在大數據時代，這類AI機器學習模型可以在提升產品銷售、輔助人類決策過程中起到很大的作用。

但是計算機通常不會解釋它們的預測結果，而語言模型想要變得更強大、部署更廣泛，就需要研究可解釋性，因為人類對模型內部工作原理的理解仍然非常有限，例如可能很難從中檢測到有偏見、欺騙性內容輸出。

可解釋性就是將模型能用通俗易懂的語言進行表達，把模型的預測過程轉化成具備邏輯關系的規則的能力，從而通過查看模型內部來發現更多信息。

例如，如果有一個針對“漫威超級英雄”的神經元，當用戶向模型提問“哪個超級英雄的能力最強”時，這個神經元就會提高模型在回答中說出漫威英雄的概率。

站在OpenAI 的角度看，大模型未來將和人腦一樣擁有“神經元”，這些神經元會觀察文本中的特定規律，進而影響到模型本身生產的文本。

所以可解釋性就是將模型能用通俗易懂的語言進行表達，把模型的預測過程轉化成具備邏輯關系的規則的能力，從而通過查看模型內部來發現更多信息。

為了實現這個目標，OpenAI最近發布了一個關于GPT-4語言模型解析神經元的對齊性研究成果，利用自研基于GPT-4技術的開源工具，來嘗試計算其他架構、更簡單語言模型上神經元的行為并對其進行評分。

而且，還可以將其應用于另一種語言模型中的神經元——本次選擇4年前發布、包含307200個神經元的大模型GPT-2為實驗樣本，公開了這些GPT-2神經元解釋和分數的數據集。

“我們邁出了使用 AI 進行自動化對齊研究的重要一步?！監penAI 聯合創始人 Greg Brockman表示。

具體來說，OpenAI開發了一套包含自動化工具和測試方法的評估流程：

首先，研究人員讓GPT-2運行文本序列，等待某個特定神經元被頻繁“激活”；

然后，讓 GPT-4 針對一段文本生成解釋，例如通過GPT-4接收到文本和激活情況判斷漫威是否與電影、角色和娛樂有關；

隨后用 GPT-4 模擬 GPT-2 的神經元接下來會做什么，預測行為；

最后評估打分，對比GPT-4模擬神經元和GPT-2真實神經元的結果的準確度，在下圖這個例子中，GPT-4 的得分為0.34。

使用上述評分方法，OpenAI 開始衡量他們的技術對網絡不同部分的效果，并嘗試針對目前解釋不清楚的部分改進技術。例如，他們發現以下方式有助于提高分數：

- 迭代解釋。他們可以通過讓 GPT-4 想出可能的反例，在根據其激活情況修改解釋來提高分數；

- 使用更大的模型來進行解釋。隨著解釋模型（explainer model）能力的提升，平均得分也會上升。然而，即使是 GPT-4 給出的解釋也比人類差，這表明還有改進的余地；

- 改變被解釋模型的架構。用不同的激活函數訓練模型提高了解釋分數。

OpenAI 表示，他們正在將GPT-4編寫的對GPT-2中的所有307,200個神經元的解釋的數據集和可視化工具開源，同時還提供了OpenAI API公開可用的模型進行解釋和評分的代碼，從而希望學術界能開發出新的技術來提升GPT模型解釋分數。

OpenAI還發現，有超過 1000 個神經元的解釋得分至少為0.8分，這意味著GPT-4模型可以解釋大部分人類神經元，同時目前GPT理解的概念似乎和人類不太一樣。例如，他們發現了一些有趣但 GPT-4 并不理解的神經元。

這些神經元似乎對文本中的某些特征或模式有敏感度，但是GPT-4無法用簡單的語言描述它們。OpenAI希望隨著技術和研究方法的改進，進一步提高AI模型可解釋性能力，從而更好地理解這些神經元的行為和意義。

對于本研究局限性， OpenAI表示，目前GPT-4生成的解釋還不完美，尤其要解釋比GPT-2更大的模型時，表現效果很差。

神經元復雜行為無法用簡短的自然語言描述，OpenAI 解釋了神經元的這種行為，卻沒有試圖解釋產生這種行為的機制，而且整個過程算力消耗極大等。

OpenAI 希望在未來的工作中可以解決上述這些問題，最終OpenAI希望使用模型來形成、測試和迭代完全一般的假設，從而比肩人類大腦的想法和行為，以及將其大模型解釋為一種在部署前后檢測對齊和安全問題的方法。

然而在這之前，OpenAI還有很長的路要走。

“我們希望這將開辟一條有前途的途徑?！盝eff Wu表示，這一技術可以讓其他人可以在此基礎上構建并做出貢獻的自動化方案，從而解決 AI 模型可解釋性問題，很好地解釋這些模型行為，比如 AI 如何影響人類大腦中的神經元等。

嚴正聲明：本文為元宇宙簡史原創，未經授權禁止轉載！內容僅供參考交流，不構成任何投資建議。任何讀者若據此進行投資決策，風險自擔。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#OpenAI用GPT-4解讀GPT-2 #GPT-4解讀GPT-2 #OpenAI #GPT-4 #ChatGPT #大型語言模型 #大模型 #LLM #人工智能 #AI

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

长兴郴障科技有限公司

OpenAI用GPT4解讀GPT2，打敗魔法的只有魔法

掃碼下載澎湃新聞客戶端

OpenAI用GPT4解讀GPT2，打敗魔法的只有魔法