- +1
DeeCamp2021冠軍用“垃圾DNA”預測癌癥,李開復:醫療是AI的下一個突破點
博雯 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
5位學生2個月做出來的AI項目,能走到哪一步?
不僅能通過目標基因查詢對應藥物,還能查詢癌癥相關藥物的具體基因,包括靶向的基因和通路:

像這樣的項目還不止一個:
寓教于樂的教育桌游、提取金融文檔事件的系統、營銷號短文生成器,甚至還有AI陪你一起拼樂高……
這就是今年畫風及其豐富多變的AI訓練營——DeeCamp。
兩個月時間,這群海內外名校的學生們五六人一組,迅速做出了各種算法、軟件、解決方案、有趣的玩法……
甚至連商業化路線都做出了規劃。
也就難怪大賽評委,創新工場董事長兼CEO李開復博士在點評獲獎作品時表示:
DeeCamp 2021充分說明AI技術已經走出實驗室,在各行各業找到了非常好的商業化場景。

非編碼區基因預測疾病
冠軍團隊GeneBERT的項目是基因檢測及診斷。
具體來說,是通過全基因組序列分析,結合啟動子,轉錄因子結合位點等基因調控元件對疾病進行預測。

“全基因組”是什么意思呢?
眾所周知,基因是用來編碼蛋白質的。
而在人類基因組中,98%的部分都是非編碼序列,并不直接參與蛋白質的合成。
因此,這98%的非編碼區一度被認為是冗余或無用的。
不過隨著全基因組測序等項目的開展,人們也逐漸意識到,這98%的非編碼區同樣對基因表達有著重要的調控作用。
GeneBERT就希望通過學習多種非編碼調控區域之間的交互作用,更好地理解疾病的成因,也為新藥研發提供更多潛在的靶點。
首先,團隊成員采用了一種多模態預訓練方案,利用各類模態相關信息來訓練向量:

這里的多模態,一個是標記(token)序列,另一個則是基因在三維空間里的結合位置。
訓練則在包含了人類胚胎大腦的開放染色質數據的ATAC-Seq數據集上完成:

然后就可以擴展到各種下游任務上。
一個成功的案例就是對復雜的多基因影響遺傳病:先天性巨結腸病的預測。
在使用了疾病相關的RET基因的非編碼區片段的內部數據做預訓練后,模型成功預測了該疾病的患病風險。
目前團隊已經初步建成了基因檢測到個性化診療方案設計的一體化服務平臺,對于下一步的方向,他們還表示:
項目的研究還會繼續,我們的項目將進一步提升預訓練模型的泛化性能,為學術界提供更多的用來分析非編碼區基因突變的新范式。

清華大學講席教授、智能產業研究院院長張亞勤教授對GeneBERT則評價道:
同學們可以嘗試在企業服務、產業工業化等to B垂直領域著手,幫助to B企業解決真實的問題。
冠軍團隊GeneBERT無論是交叉學科的選題,還是商業化思路,都起到了很好的示范作用。
醫療、教育、金融、還有拼樂高
除了冠軍團隊之外,其他幾條賽道的獲勝項目也非常顯眼。
來自南京大學的Free Lunch團隊獲得了“人工智能驅動的商業場景”賽道冠軍。
他們的金融文檔事件提取系統能夠從海量篇章級金融文本中抽取事件以及相關實體信息:

團隊也用抽取得到的結構化金融信息搭建了一個項目平臺,提供金融文檔分析、金融日歷、熱點推薦等功能。
而由清華大學、澳科大、西農科大和美國哥倫比亞大學同學組成的Edutainment Club團隊獲得了“人工智能的創新與創意”賽道的冠軍。
他們研發的“Click”是一款結合推薦系統的教育桌游:

這一游戲將矢量棋盤的圖形化游戲設計與AI生成的STEM題庫融合,枯燥的加減運算題也就變為了管道聯通的游戲場景。
“語言與知識的智能創新”賽道的冠軍則是來自同濟大學和美國波士頓大學的團隊。
他們研發了能夠根據產品關鍵詞生成營銷文案的“AI薦”系統,根據用戶上傳的產品圖片或特征,為不同風格的受眾提供各有側重的營銷文案:

而同樣走到了最終決賽的ICU智能診療一體化項目,能夠在點擊關鍵詞時,自動生成影像報告及可視化解釋,還有可以進行AR輔助積木拼裝的BrickPal,能夠根據NLP技術自動生成積木拼裝順序,并通過AR達到一種沉浸式的積木拼裝:

DeeCamp人工智能訓練營
DeeCamp是一個由創新工場發起的AI訓練營。
這是一項面向全球大學生,專注培養應用型AI人才的公益項目,自2017年發起開始,已經舉辦了五屆。

而剛剛結束的DeeCamp 2021,則由創新工場和清華大學智能產業研究院(AIR)聯合主辦。
整場比賽共有來自全球200名頂尖高校的學生共組成了39支隊伍,向語言、醫療、創新、商業4大賽道的13個賽題發起挑戰,最終有6支隊進入總決賽。
在8月17日的總冠軍答辯&結營典禮上,6支隊伍里的GeneBERT團隊獲得了總冠軍和10萬元大獎:

而四位分賽道冠軍則分別獲得了3萬元獎金。
對于2021年的這一批學員,李開復博士表示:
從同學們的項目里:游戲、學習、廣告、文本生成、信息的理解和分析上,我們可以看到AI不僅在各行各業都有商業化的成果,而且落地速度也非常快。
過去兩三年,甚至半年前剛剛出來的技術,現在已經被非常好地使用了。
最后,他也鼓勵同學們去尋找好的商業落地的伙伴,用AI搭配行業專家的方式,用技術解決技術帶來的挑戰,給社會帶來正能量,從而造福更多的人類。

△DeeCamp2021結營儀式云合影
DeeCamp官網:
https://deecamp.com/#/home
參考鏈接:
[1]https://www.qbitai.com/2021/05/23618.html
[2]http://www.genebert.com/
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。
原標題:《DeeCamp 2021冠軍用“垃圾DNA”預測癌癥,李開復:醫療是AI的下一個突破點》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司