- +1
零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強
機器之心報道
機器之心編輯部
在 NLP 領域,pretrain-finetune 和 prompt-tuning 技術能夠提升 GPT-3 等大模型在各類任務上的性能,但這類大模型在零樣本學習任務中的表現(xiàn)依然不突出。為了進一步挖掘零樣本場景下的模型性能,谷歌 Quoc Le 等研究者訓練了一個參數(shù)量為 1370 億的自回歸語言模型 Base LM,并在其中采用了全新的指令調整(instruction tuning)技術,結果顯示,采用指令調整技術后的模型在自然語言推理、閱讀理解和開放域問答等未見過的任務上的零樣本性能超越了 GPT-3 的小樣本性能。
大規(guī)模語言模型(LM)已經被證明可以很好的應用到小樣本學習任務。例如 OpenAI 提出的 GPT-3 ,參數(shù)量達 1,750 億,不僅可以更好地答題、翻譯、寫文章,還帶有一些數(shù)學計算的能力等。在不進行微調的情況下,可以在多個 NLP 基準上達到最先進的性能。
然而,像 GPT-3 這樣的大規(guī)模語言模型在零樣本(zero-shot)學習任務中表現(xiàn)不是很突出。例如,GPT-3 在執(zhí)行閱讀理解、問答和自然語言推理等任務時,零樣本的性能要比小樣本(few-shot)性能差很多。
本文中,Quoc Le 等來自谷歌的研究者探索了一種簡單的方法來提高大型語言模型在零樣本情況下的性能,從而擴大受眾范圍。他們認為 NLP 任務可以通過自然語言指令來描述,例如「這部影評的情緒是正面的還是負面的?」或者「把『how are you』譯成漢語」。
該研究采用具有 137B 參數(shù)的預訓練模型并執(zhí)行指令調整任務,對 60 多個通過自然語言指令表達的 NLP 任務進行調整。他們將這個結果模型稱為 Finetuned LANguage Net,或 FLAN。

論文地址:https://arxiv.org/pdf/2109.01652.pdf
GitHub 地址:https://github.com/google-research/flan.
為了評估 FLAN 在未知任務上的零樣本性能,該研究根據(jù) NLP 任務的任務類型將其分為多個集群,并對每個集群進行評估,同時在其他集群上對 FLAN 進行指令調整。如下圖 1 所示,為了評估 FLAN 執(zhí)行自然語言推理的能力,該研究在一系列其他 NLP 任務(如常識推理、翻譯和情感分析)上對模型進行指令調整。由于此設置確保 FLAN 在指令調整中未見自然語言推理任務,因此可以評估其執(zhí)行零樣本自然語言推理的能力。

評估表明,F(xiàn)LAN 顯著提高了模型(base 137B 參數(shù))的零樣本性能。在 25 個評估任務中,F(xiàn)LAN 零樣本在 19 項任務上優(yōu)于具有 175B 參數(shù) GPT-3 零樣本,甚至在許多任務(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也顯著優(yōu)于 GPT-3 小樣本。在消融研究中,研究發(fā)現(xiàn)在指令調整中增加任務集群的數(shù)量,可以提高模型在未見過的任務的性能,并且指令調整的好處只有在模型規(guī)模足夠大的情況下才會出現(xiàn)。
該研究實證結果強調了語言模型使用自然語言指令描述任務的能力。更廣泛地說,如圖 2 所示,指令調整結合了預訓練微調(pretrain–finetune)特點,并通過使用 finetune 監(jiān)督來提高語言模型響應推理時文本交互的能力。

FLAN:用指令調整改進零樣本學習
指令調整的動機是提高語言模型響應 NLP 指令的能力,旨在通過使用監(jiān)督來教 LM 執(zhí)行以指令描述的任務。語言模型將學會遵循指令,即使對于未見過的任務也能執(zhí)行。為了評估模型在未見過的任務上的性能,該研究按照任務類型將任務分成多個集群,當其他集群進行指令調整時,留出一個任務集群進行評估。
任務和模板
該研究將 62 個在 Tensorflow 數(shù)據(jù)集上公開可用的文本數(shù)據(jù)集(包括語言理解和語言生成任務)聚合到一起。下圖 3 顯示了該研究使用的所有數(shù)據(jù)集;每個數(shù)據(jù)集被歸類為十二個任務集群之一,每個集群中的數(shù)據(jù)集有著相同的任務類型。

該研究將任務定義為由數(shù)據(jù)集給出的一組特定的輸入 - 輸出對。對于每個任務,研究者手動編寫十個獨特的模板,使用自然語言指令描述任務。十個模板大多描述的是原始任務,但為了增加多樣性,研究者為每個任務,提供了最多三個「變更任務(turned the task around)」的模板,下圖 4 給出了自然語言推理任務的多個指令模板。

訓練細節(jié)
模型架構和預訓練。在實驗中,該研究使用密集的從左到右、僅解碼器、137B 參數(shù)的 transformer 語言模型。該模型在一組網絡文檔(包括含計算機代碼的文檔)、對話數(shù)據(jù)和 Wikipedia 上進行預訓練,這些文檔使用 SentencePiece 庫 (Kudo & Richardson, 2018),被 tokenize 為 2.81T BPE token 和 32K token 的詞表。大約 10% 的預訓練數(shù)據(jù)是非英語的。這個數(shù)據(jù)集不像 GPT-3 訓練集那么干凈,而且還混合了對話和代碼。
實驗結果
研究者分別在自然語言推理、閱讀理解、開放域問答、常識推理、共指消解和翻譯等多項任務上對 FLAN 的性能進行了評估。對于每一項任務,他們報告了在所有模板上性能的平均和標準誤差,這代表了給定典型自然語言指令時 FLAN 的預期性能。
自然語言推理任務
下表 1 展示了不同模型自然語言推理測試的結果,其中給定一個前提與假設——模型必須確認在給定前提為真的情況下假設也為真??梢钥吹剑現(xiàn)LAN 在所有情況下均表現(xiàn)出強大的性能。
盡管在 CB 和 RTE 的不同模板的結果中存在高方差,但 FLAN 在沒有任何 prompt 工程時依然在四個數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在具有最佳 dev 模板時,F(xiàn)LAN 在五個數(shù)據(jù)集上優(yōu)于小樣本 GPT-3。FLAN 甚至在 ANLI-R3 數(shù)據(jù)集上超越了監(jiān)督式 BERT。

閱讀理解和開放域問答任務
在閱讀理解任務上,模型被要求回答關于給定文章段落的問題,結果如下表 2 所示。FLAN 在 BoolQ 和 OBQA 數(shù)據(jù)集上顯著優(yōu)于 GPT-3。在使用最佳 dev 模板時,F(xiàn)LAN 在 MultiRC 數(shù)據(jù)集上略優(yōu)于小樣本 GPT-3。
對于開放域問答任務,F(xiàn)LAN 在 ARC-easy 和 ARC-challenge 數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在 Natural Questions 數(shù)據(jù)集上,F(xiàn)LAN 優(yōu)于零樣本 GPT-3,弱于小樣本 GPT-3。

常識推理和共指消解任務
不同模型在五個常識推理數(shù)據(jù)集上的結果如下表 3 所示,F(xiàn)LAN 在 StoryCloze 數(shù)據(jù)集上優(yōu)于 GPT-3,在 CoPA 和 PiQA 數(shù)據(jù)集上媲美 GPT-3。但在 HellaSwag 和 ReCoRD 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。
在兩個共指消解任務上,具有最佳 dev 模板的 FLAN 在 Winogrande 數(shù)據(jù)集上優(yōu)于零樣本 GPT-3,但在 WSC273 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。

翻譯
研究者還在 GPT-3 論文中評估的三個數(shù)據(jù)集上測試了 FLAN 的機器翻譯性能,這三個數(shù)據(jù)集分別是 WMT’14 法語 - 英語以及 WMT’16 的德語 - 英語和羅馬尼亞語 - 英語。
測試結果如下表 4 所示,Base LM 的零樣本翻譯性能弱,但小樣本翻譯結果媲美 GPT-3。FLAN 在六個評估指標中的五個上優(yōu)于小樣本 Base LM。與 GPT-3 類似,F(xiàn)LAN 在翻譯成英語任務上展示出了強大的性能,并且與監(jiān)督式翻譯基線相比具有優(yōu)勢。

其他實驗
由于該論文的核心問題是指令調整如何提高模型在未見過任務上的零樣本性能,因此該研究的第一個消融實驗研究了指令調整中使用的集群和任務數(shù)量對性能的影響。
圖 5 顯示了實驗結果。與預期一致,研究者觀察到 3 個 held-out 集群的平均性能隨著向指令調整添加額外的集群和任務而提高(情感分析集群除外),證實了所提指令調整方法有助于在新任務上提升零樣本性能。

下圖 6 結果表明,對于較大規(guī)模的模型,指令調整填充了一些模型容量,但也教會了這些模型遵循指令的能力,允許模型將剩余的容量泛化到新任務。

? THE END
轉載請聯(lián)系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
原標題:《全新instruction調優(yōu),零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強》
本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司