- +1
CVPR 2024現場觀察:隨處可見的華人面孔和最熱的三大研究領域
原創 蘇霍伊 甲子光年

在涼爽的西雅圖,屋子太小,CVPR太火。
作者|蘇霍伊
編輯|王博
發自美國西雅圖
美國當地時間6月19日,2024年IEEE國際計算機視覺與模式識別會議(CVPR)的最佳論文大獎揭曉。
作為計算機視覺和模式識別領域的頂級會議,每一屆的CVPR的最佳論文都會受到廣泛關注。今年共有4篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文。
其中,最佳論文是:
《Generative Image Dynamics(生成圖像動力學)》,由谷歌研究院發布;
《Rich Human Feedback for Text-to-Image Generation(為文本到圖像生成提供豐富的人類反饋)》,由加州大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學及布蘭迪斯大學合作發布。
最佳學生論文是:
《Mip-Splatting: Alias-free 3D Gaussian Splatting(Mip-Splatting:無混疊的3D高斯噴濺)》,由德國圖賓根大學、圖賓根人工智能中心、上海科技大學及捷克理工大學合作發布。
《BioCLlP: A Vision Foundation Model for the Tree of Life(BioCLlP:生命之樹的視覺基礎模型)》,由美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院共同發布。
CVPR火熱的現場與西雅圖涼爽的天氣形成了鮮明對比,現場幾乎所有活動都要排隊。在6月17日到18日的活動中,不少場次座位滿了,地板上也很快就坐滿了人,西雅圖會議中心的空地也有不少人席地而坐。

CVPR 2024現場,「甲子光年」拍攝
「甲子光年」從大會主辦方了解到,本屆CVPR共有來自76個國家和地區的超過12000人參加了線下會議,是CVPR歷史上與會人數最多、規模最大的一屆。其中,來自中國的參會者是美國之外最多的,共有1730人,包括中國內地1511人、中國香港134人、中國澳門2人、中國臺灣83人。
今年CVPR共收到11532篇論文投稿,相比2023年的9155篇增加了25%,論文數量達到了歷史新高,錄取率卻從去年的25.8%小幅下降到了23.6%, 僅2719篇被接收,競爭愈發激烈。
來自美國高校的Mark對「甲子光年」表示,本屆盲審階段獲得三位審稿人一致滿分意見(5/5/5)的論文“不在少數”,他的論文也是其中之一。“CVPR的審稿要求,所有的審稿只看質量不用接收率來衡量,所以滿分多了并不是審查要求放低了,而是論文質量提高了。”Mark也是本屆最佳學生論文的亞軍獲得者。
“合作”仍是學術研究的關鍵詞。學術界貢獻了39.4%的論文,而產業界與學術界合作成果則貢獻了27.6%的論文。在產業界中,谷歌是最大的貢獻者,提交了52篇論文,往后是騰訊和Meta,各貢獻了35篇論文。
同時論文作者也增加了不少,參與撰寫被接受論文的作者人數從去年的8457人增加到超過10000人。其中只有大約三分之一的作者在去年有論文被接受,許多新面孔加入了這場“學術競賽”。
高亮論文(Highlights)和口頭(Oral)報告環節也非常引人注目,分別有324篇和90篇論文獲選進行展示,占總提交論文的2.81%和0.78%,入選比例不高,但每一篇都代表了CV領域的頂尖水平。

CVPR 2024論文主題分布,來源:CVPR
CVPR 2024論文數據展示了計算機視覺領域的全球趨勢和新動向。研究最多的主題有:圖像和視頻合成與生成、三維視覺、人體行為識別、視覺、語言與語言推理、底層視覺、識別、遷移學習與多模態學習。特別是圖像和視頻合成與生成,這一研究主題在會議中共有329篇相關論文,是絕對的研究熱點。緊隨其后的是三維視覺和人體行為識別,分別有276篇和202篇論文。
根據「甲子光年」在現場的觀察和探訪,本屆CVPR的熱門研究領域主要有三個:
2D&3D生成(2D&3D generation);
具身智能(Embodied Artificial Intelligence);
視覺基礎模型(Vision Foundation Models)。
1.最佳論文:谷歌研究院成最大贏家
相信大家對上一屆CVPR的最佳論文還有印象,由上海人工智能實驗室、武漢大學及商湯科技聯合完成的《Planning-oriented Autonomous Driving(以路徑規劃為導向的自動駕駛)》,這也是近十年來計算機視覺三大頂級會議中(CVPR、ICCV、ECCV),第一篇以中國學術機構作為第一單位的最佳論文。另外,來自西北工業大學的團隊也獲得了CVPR 2023的最佳學生論文的榮譽。
盡管本屆CVPR接收的來自中國的論文不少,但是最終只有上海科技大學的團隊參與的論文獲得了本屆最佳學生論文。前兩屆獲得最佳論文(最佳學生論文)提名的谷歌則是打了一個翻身仗,CVPR 2024兩篇最佳論文都來自谷歌研究院,一作都是華人。

最佳論文《Generative Image Dynamics》頒獎現場,圖片來源:「甲子光年」拍攝
第一篇最佳論文是來自谷歌研究院的《Generative Image Dynamics》,作者為Zhengqi Li、 Richard Tucker、Noah Snavely和Aleksander Holynski。
論文本質上研究了一類視頻生成的子類問題,植物火苗等空氣動態搖曳運動視頻生成,它代表了真實物理世界中的空氣運動,而這種運動是十分難以模擬的。
方法框架是采用兩階段的級聯范式,第一從靜態圖片當中運動軌跡,第二以運動軌跡和靜態圖片為先驗,生成動態視頻。文章發現頻譜體積這一特征可以作為一個很好的先驗,控制靜態圖片的搖曳運動。值得注意的是,這樣頻譜體積也能從簡單的運動,比如鼠標移動中重建恢復出來。
所以這項研究在虛擬世界人機交互,真實世界模擬的中有非常大的潛力和范式作用。現在很少用文章講底層的信號處理知識和high level的任務,如圖像生成聯系起來。這篇文章回顧傳統的信號處理算法,能夠幫研究者做出具有差異化的實質性工作。

最佳論文《Rich Human Feedback for Text-to-Image Generation》頒獎現場,圖片來源:「甲子光年」拍攝
第二篇最佳論文由加州大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學及布蘭迪斯大學共同發表的《Rich Human Feedback for Text-to-Image Generation》斬獲,作者有Youwei Liang、Junfeng He、Gang Li、Peizhao Li等人。
他們提出的方法自動化模擬了人類的反饋過程。
許多生成的圖像仍面臨著不夠真實、與文字描述不匹配以及審美質量不高等問題。該研究通過選用高質量的訓練數據對生成模型進行微調,或者通過使用帶預測熱圖的掩模來修正這些問題區域,從而改善了圖像的生成質量。值得一提的是,這些改進措施不僅適用于收集人類反饋數據的圖像,也能擴展到其他模型(如Muse模型)中。
人類反饋的概念最初由OpenAI在GPT模型中提出,目的是通過人類標注來指導并改正模型的不足。這篇論文將人類反饋的方法引入到圖像生成領域,不僅如此,研究人員還創建了一個包含各種錯誤(如不匹配的文本、偽影區域、語義錯誤匹配和主觀評分)的數據集。同時,他們也嘗試使用一個多模態判別模型來模擬人類反饋的自動化過程。
實驗結果表示自動化的標注模型在一定程度上能夠模仿人類的反饋,顯示出與人類標注的一致性。但值得深入探討的是,這種自動化評分模型是否能真正替代人類的評價。因為人類反饋通常來源于具有不同背景的多樣人群,能夠提供更全面的評判。相比之下,自動化評分可能面臨評判過于單一和模型過擬合的問題,尤其是這些模型通常是在特定的生成模型和圖文對上進行訓練的。
可以說,自動化標注模型在模擬人類反饋方面取得了一定成果,但其泛化能力和一致性仍需進一步驗證。

最佳學生論文《Mip-Splatting: Alias-free 3D Gaussian Splatting》頒獎現場,來源:CVPR
再來看最佳學生論文。
第一篇最佳學生論文頒發給了《Mip-Splatting: Alias-free 3D Gaussian Splatting》,由德國圖賓根大學、圖賓根人工智能中心、上海科技大學及捷克理工大學共同發表。作者為Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler和Andreas Geiger,其中論文的一作、二作都是上海科技大學的在讀或畢業生。
這篇論文重要關注3D高斯噴濺(Gaussian splash)在三維重建領域取得了高質量的效果,尤其是其渲染速度相比于之前的Nerf(神經輻射場)的方法有了極大的提升,但這一方法在改變采樣率時,例如在改變焦距或者相機距離時會產生偽影,問題的根源可以歸因于缺乏3D頻率的約束和使用2D膨脹濾波器。
去年7月,法國科研機構Inria和德國馬普所聯合發表了一篇論文,詳細介紹3D高斯噴濺技術,這項技術使得大規模生成精細化3D模型成為可能。論文一經發出,便在計算機視覺領域引起極高關注。AI創企知天下的創始人兼CEO宋寬此前對「甲子光年」表示:“這項技術具有劃時代意義,高斯噴濺將使三維點云算法從‘小眾’變成‘大殺器’。”
「甲子光年」注意到,這次Mip-Splatting引入了一個3D平滑濾波器,該濾波器根據輸入視圖引起的最大采樣頻率來約束高斯基元,從而消除高頻偽影。
高斯偽影是3D生成中難以解決的問題。作者們引入了一個2D mip濾波器代替2D膨脹,可有效緩解混疊和膨脹問題,和高斯偽影問題。
值得一提的是,文章作者之一Binbin Huang(黃彬彬)還另提出2D Gaussian的高質量文章,可通過將3D基元轉換為2D基元,有效地解決3D高斯表面幾何粗糙的問題。

最佳學生論文《BioCLlP: A Vision Foundation Model for the Tree of Life》頒獎現場,來源:「甲子光年」拍攝
第二篇最佳學生論文由美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院共同發布的《BioCLlP: A Vision Foundation Model for the Tree of Life》獲得,作者有Samuel Stevens、Jiaman (Lisa) Wu、Matthew J Thompson等。
近年來,隨著無人機到個人手機等多種攝像設備的普及,自然界圖像的收集已變得異常豐富。這些圖像不僅僅是生物信息的豐富源泉,更成為了科學研究和保護工作中不可或缺的重要工具。然而,現有的計算方法和工具,尤其是計算機視覺技術,大多數是為特定任務量身定制的,難以適應新的問題、不同的環境和數據集。
針對這一挑戰,來自俄亥俄州立大學等地的研究人員發布了名為TREEOFLIFE-10M的數據集,這是迄今為止規模最大、最多樣化的生物學圖像數據集。借助TREEOFLIFE-10M提供的大量植物、動物和真菌圖像,以及豐富的結構化生物知識,研究團隊開發出了BioCLlP——面向生命樹的基礎模型。
經過嚴謹的測試和評估,BioCLlP在多個細粒度生物分類任務中展現出了顯著的性能優勢,表現優于現有基準模型16%至17%。內在評估顯示,BioCLlP學習到了符合生命樹層次結構的表示方法,有著強大的泛化能力和廣闊的應用前景。
2.現場感受:參會者最關注三大熱門研究領域

CVPR 2024現場,圖片來源:「甲子光年」拍攝
CVPR前兩天的活動以Workshop、Tutorial為主,與上述三個領域相關的活動幾乎每場都座無虛席,這其中很多都是華人面孔,從國內專程飛過來的觀眾也不少,西雅圖當地的酒店價格也水漲船高。“屋子太小而CVPR又太火熱。”來自中國科技大學的Dalison對「甲子光年」說。
在國內大學讀研二的小羅此行就是希望通過CVPR來“套瓷”自己的目標博士生導師,“我已經有目標‘導師了’,寫郵件很多時候可能就被淹沒在茫茫‘郵’海中了,但在這里卻能和大佬們當面交流。”
另一位來自丹麥哥本哈根參會者說自己第一次來參加CVPR,所以想“都看看、都轉轉”,“但感興趣的演講一些在同時進行,不得不做取舍。”
但是他發現再取舍,也會遇到擠不進會場的情況。例如,魏茨曼研究所數學系和計算機學院助理教授Tali Dekel發表的《AI for Content Creation Workshop》演講,人多到已經“溢出”房間了,她的研究方向主要在于圖像和視頻分析、多識圖系統等。

Tali Dekel的分享現場,觀眾已經排出場外,圖片來源:「甲子光年」拍攝
而像Meta、OpenAI、LumaAI這樣的知名公司的分享,也吸引了大量觀眾的關注,人們紛紛涌向這些活動的會議室,門口排起了長長的隊伍。

會議現場的觀眾,圖片來源:「甲子光年」拍攝
根據「甲子光年」在現場的觀察和探訪,本屆CVPR的熱門領域主要有三個:
2D&3D生成(2D&3D generation);
具身智能(Embodied Artificial Intelligence);
視覺基礎模型(Vision Foundation Models)。
2D&3D生成代表著從認識世界到模擬世界,是人類對真實世界的逆向重塑。
具身智能代表著從虛擬走向真實,從認識世界到改變世界,是AI對自動化機械的智慧“革新”。
視覺基礎模型是從局部子問題走向通解,類似于“All in one”,試圖尋找一個“視覺GPT”去解決大多計算機視覺問題。做法是用統一的大模型去替代不同領域數據集上的專家模型。主要得益于Transformer技術的啟發。這類模型在多個視覺任務中展示了卓越能力,包括圖像分類、目標檢測和圖像生成。
CVPR用不同研究子領域,將相似研究背景的科研人員聚合在一起。他們通過演講和Free talk的方式,分享自己的學術觀點和見解。雖然沒有統一的評價體系來判定其影響力,但對比下來,「甲子光年」感受到參會者心中都“自有判斷”,這幾天持續的思想碰撞會讓他們繼續探索新的研究方向。
這次會議共推出了123個workshop與24場tutorial,「甲子光年」主要聽了其中三場。
首先是OpenAI的Sora團隊負責人Tim Brooks的分享,他曾主導了三代DALL-E的研究工作和Sora項目。如往常一樣,Tim這次同樣未講述過多Sora的技術細節。有趣的是,在被問及如何平衡科研和興趣時,他坦誠地回答道:“我已經一年多沒有做科研了。”

Tim Brooks在演講,圖片來源:「甲子光年」拍攝
瑞士蘇黎世聯邦理工學院計算機科學系助理教授湯思宇在題為《Virtual Humans for Robotics and Autonomous Driving》的workshop中,分享了人體和物體的交互模擬的觀點。從方法、數據等多個層面深入淺出地介紹了他們人類物體運動交互生成在系列工作。
她重點關注了人類運動實時性、多樣性以及人造數據集的逼真性。這些工作對于人造機器人控制在算法上提供了幫助,能夠讓人形機器人根據簡單的指令在模擬空間中做出自適應的相應動作。
從這屆CVPR上關于人類與物體交互的研究來看,人形機器人在關鍵點算法問題上已經逐步突破。未來需要做的是,這些算法在真實世界中的復雜場景下的可復現性,以及配合硬件算法是否真的能做到可控性和實時性。

湯思宇在演講,圖片來源:「甲子光年」拍攝
剛剛在國內參加了2024北京智源大會的謝賽寧也出現在了CVPR 2024的現場,在主題為《Generative Models for Computer Vision》的workshop演講中,他提到了DiT從頂會的“棄兒”到業界“新寵”的歷程。和其他很多被拒論文一樣,《Scalable Diffusion Models with Transformers》這篇論文在CVPR 2023曾因“lack of novelty(缺乏新穎性)”而遭到拒稿。
不過今年,謝賽寧參與的2篇論文被CVPR接收,在此前舉行北京智源大會上,他也對論文進行了介紹。

謝賽寧在2024北京智源大會演講,圖片來源:「甲子光年」拍攝
其中一篇論文題為《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs(視而不見?探究多模態大語言模型的視覺缺陷)》,聯合作者包括了圖靈獎得主楊立昆和香港大學教授馬毅。
謝賽寧現場提出了一個問題:“Is vision good enough for language? (視覺對語言來說足夠好嗎?)”
多模態模型的進步主要來自于大語言模型強大的推理能力。然而,視覺部分通常只依賴于實例級對比語言-圖像預訓練(CLIP)。謝賽寧等人的研究表明,最近的多模態大語言模型(MLLMs)在視覺能力上仍然存在系統性的不足,他們提出了一種特征混合(MoF)方法,證明將視覺自監督學習特征與MLLMs集成可以顯著增強它們的視覺基礎能力。總之,視覺表示學習仍然是一個開放的挑戰,準確的視覺基礎對于未來成功的多模態系統至關重要。

謝賽寧在2024北京智源大會演講,圖片來源:「甲子光年」拍攝
“我們其實可以嘗試去補足CLIP model的短板,”謝賽寧在智源大會上說,“但是CLIP已經待在這個領域里太久了,我們現在急需一個alternative pipeline(替代流程)。”
與智源大會上被“圍堵”類似,謝賽寧也是CVPR 2024上的“明星”,在他演講結束之后,也有很多人圍住他期待與他交流。

CVPR 2024現場,圖片來源:「甲子光年」拍攝
在CVPR 2024現場,「甲子光年」感受到,在大模型時代的計算機視覺領域,傳統的判別式回歸任務的應用空間被顯著壓縮。
如簡單的圖像分類、物體檢測等,曾經是研究的重點,但現在它們的應用空間正被顯著壓縮。這種變化主要是因為像Meta提出的“分割一切的模型”——SAM,這類大型模型不僅能夠以高效率完成這些任務,還能在更復雜的任務上展現出色的性能。例如,SAM能夠通過大量預訓練數據學習到豐富的特征表示,使其能夠輕松適應多種視覺任務,從基本的分類到復雜的場景理解。
隨著AIGC在視覺任務中的需求高漲,對算力和大模型訓練的經驗要求也隨之增加。AIGC涉及從文本到圖像的生成、風格轉換、以及新穎視覺內容的創造等復雜任務,這些都需要強大的計算資源和高級別的模型訓練技能。
由于這些任務對資源的需求極高,學術界的多數團隊在沒有足夠算力和資源的情況下,往往局限于進行模型的微調(fine-tuning)或無需進行大規模訓練的研究。
這種資源限制導致了研究的兩極分化:一方面是有能力進行大規模訓練的大公司和頂尖實驗室,他們能夠探索和創新更多高難度的技術;另一方面是資源有限的研究團隊,他們需要在現有的技術框架內尋找新的應用方式或改進方法。
只是這種分化在推動技術快速進步的同時,學術界又該如何面對平等科研機會的挑戰?
(封面圖來源:「甲子光年」拍攝)
原標題:《CVPR 2024現場觀察:隨處可見的華人面孔和最熱的三大研究領域|甲子光年》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司