- +1
系統生物學中的建模:因果理解先于預測
系統生物學中的建模:因果理解先于預測? 原創 Szilvia Barsi等 集智俱樂部

導語
技術的進展為我們提供了大規模的生物數據,但要如何從中獲得對生物學機制的理解?一方面我們可以使用來自科學文獻的先驗知識,但這種知識驅動方法往往基于特定的情境,不適合進行因果關系預測;另一方面,純數據驅動的推斷方法專注于創建特定情境下的預測模型,卻很難進行有意義的生物學解釋。
2021年6月,發表于Cell 旗下Patterns 雜志的論文“蛋白質組中的因果相互作用:分子數據遇見通路知識”,介紹了一款名為 CausalPath 的因果推斷工具,能夠結合新的測量結果與先驗知識,推斷蛋白質組數據中因果信號的相互作用。這種方法模仿了生物學家用先驗知識解釋新的實驗數據的傳統方法,但可以在數十萬反應的規模上進行。以下是 Patterns 雜志對這項工作的評論。
研究領域:系統生物學,計算生物學,因果推斷
Szilvia Barsi, Bence Szalai | 作者
王百臻 | 譯者
梁金 | 審校
鄧一雪 | 編輯

論文題目:
Causal interactions from proteomic profiles: Molecular data meet pathway knowledge
論文鏈接:
https://www.cell.com/action/showPdf?pii=S2666-3899%2821%2900083-0
1. 大規模生物數據集該如何解釋?
高通量技術的最新進展允許我們獲取不同模式的大規模生物數據集,如轉錄組學、蛋白質組學或代謝組學數據集,甚至在單細胞水平上也是如此。雖然這些數據集為我們提供了獨一無二的視角,來了解生物體內健康與疾病表現型背后的分子機制,但由于多種不同因素的相互作用,獲取對它們的正確解釋卻變得異常復雜。

圖1. 基因組、轉錄組、蛋白質組、代謝組、表現型
首先,在大多數情況下,標準的分析方法只會返回冗長的差異表達基因列表,或表型相關基因列表,乃至蛋白質列表,這阻礙了我們深入理解觀察到的表型的背后機制。此外,實驗數據的高維數(例如轉錄組學中數據維數可能超過20,000維),使區分簡單的相關性和復雜的因果性變得更為復雜——而對于理解其中機制并將其用于干預治療中,對因果關系的理解恐怕必不可少。
2. 建立系統生物學模型
為了克服這些限制,人們建立了不同的系統生物學模型及分析技術。通常,這些方法大體可以歸為兩類:知識驅動的方法與數據驅動的方法。
在大多數情況下,知識驅動的方法使用經過篩選的基因集列表,以生成環環相連的生物過程或路徑,并使用統計方法來發現生物數據集中,這些基因集里可能存在的過度表達或富集現象。相比于簡單的差異表達基因列表,知識驅動的方法往往可以提供更多的生物學見解,因此更適合于假設生成。然而,在大多數情況下,研究使用的基因集往往過于籠統,以致我們無法從數據中識別真正的因果信息。
另一方面,包括機器學習模型在內的數據驅動方法專注于預測性能。從以下幾個方面來看,系統生物學模型的預測性能很重要:首先,從藥物發現到患者分層等不同生物學領域,預測模型都扮演著很重要的角色。此外,有人可能會爭辯說:如果某些生物表型可以從組學數據中預測,這意味著預測模型確定了潛在的生物機制。然而,不幸的是,這些后來提出的主張被高估了:機器學習模型可以通過機器學習方法,分析數據集中的一些技術偏差和混雜因素,這可以有效地提高預測性能,但同時也會阻礙我們進行生物學意義上的解讀以及理論推廣。此外,相當一部分表現最好的機器學習模型屬于“黑盒”模型,這意味著從中推導出準確的預測機制是一件很困難的事,這也阻止了我們進行有意義的生物學解釋。

圖2. 不同系統生物學建模方向的示意圖。
(上)知識驅動方法使用功能相關基因的基因集,進行某種過度表征/富集分析。豐富的基因集雖然有助于解釋不同生物學機制的關聯,但因果關系很難被識別。
(下)數據驅動方法使用統計/機器學習方法來預測生物表型。雖然這些方法具有良好的預測性能,但在一些情況下,其理論泛化以及從中理解生物學機制的能力有限。
(中)因果推理方法同時使用先驗知識網絡信息和數據,來識別情境化的因果信號網絡。識別出的因果相互作用可用于假設生成;然而在未來,我們需要對這些方法進行基準測試。
3. 因果推斷的新工具
最近,研究人員開發了幾種新方法來彌合知識驅動方法與數據驅動方法之間的差異。這些“因果推斷工具”將先驗知識網絡(如信號通路或基因調控網絡)與基因組規模的基因表達或蛋白質組學測量連接起來,并使用統計工具來識別情境化的、特定于樣本的信號網絡變化趨勢,從而解釋觀測數據的因果效應。相比于不同基準的經典知識驅動方法,這些方法已被證明能夠更好地估計通路活性變化。
巴布爾等人[Babur et al. (2021) ]為這個后來的工具集添加了一種有趣的新方法,能夠用來區分簡單的相關性和較為復雜的因果性。CausalPath 方法使用來自路徑共用數據庫(Pathway Commons database)的激酶/磷酸酶底物*和轉錄因子所調節的基因關系,來創建圖形模式。這些圖形模式是類似下面這樣的因果關聯:當P1位點磷酸化時,激酶A是活躍的;活性激酶A在P2位點上磷酸化蛋白質B。這些圖形模式與如下測量結果相匹配:激酶A在P1位點磷酸化,而蛋白質B在P2位點磷酸化;從而使我們可以做出因果推測,識別信號的潛在因果方式:給定數據集中激酶A磷酸化蛋白質B。
*譯注:激酶是磷酸化酶,可利用能量分子(如ATP)將磷酸基團加到對應底物分子上;磷酸酶的作用與激酶相反,能夠將對應底物去磷酸化。
CausalPath 方法還使用基于數據標簽排列的方法檢驗結果的統計顯著性。在他們的論文中,作者測試了不同癌癥相關數據集的方法,成功地從蛋白質組學數據中識別了不同配體和藥物的作用機制。

圖3. CausalPath 方法結合來自科學文獻中已有的關于生物通路的詳細知識與最新獲得的蛋白質組學和其他分子測量數據,生成機制模型來解釋觀測到的變化如何彼此關聯。
巴布爾等人的研究結果還強調了將正確類型的先驗知識與相對應的組學模式結合使用的重要性。
當他們將基因調控網絡與蛋白質組學數據結合使用時,推斷出的因果網絡在統計學意義上并不顯著,而將相同的先驗知識網絡與基因表達數據結合使用,會導致更加顯著的因果關聯。這些結果還突出了目前系統生物學建模的一個普遍存在的問題:鑒于轉錄組學數據集的豐度更高(例如,與磷酸蛋白質組學相比),基因表達數據更常用于建模研究。然而,在大多數情況下,使用的先驗知識網絡是在蛋白質活動的水平上定義的。由于基因表達與蛋白質豐度及活性之間的關聯可能不大,因此將基因表達數據與通路網絡結合使用,可能會對結果給出錯誤解釋。
這些思考以及巴布爾等人的研究結果,共同表明了一個至關重要的問題——需要使用匹配的先驗知識網絡和數據,例如:基因調控網絡與轉錄組學,信號網絡與蛋白質組學。正確整合不同類型的先驗知識網絡和數據類型,也有望能夠識別多組學數據集中的因果關系。
4. 基準測試
雖然目前因果推理方面最重要的工具是生物假設生成,但為了對不同方法進行基準測試以選擇性能最佳的方法,評估預測性能或因果推理工具也是至關重要的。在巴布爾等人的論文中,他們將自己的方法與幾種現存的方法進行了比較,這是朝著這個方向努力所邁出良好的第一步。
當然,隨著越來越多的相關工具被開發出來,執行無偏見、獨立的基準測試至關重要?;鶞蕼y試的一個重要瓶頸是因果關系已知的高質量數據集。為此,擾動數據集(變化的一般原因已由使用的擾動所給出,例如藥物、基因操作等)看起來最為合適,但擾動的偏離目標效應會使方法的評估復雜化。盡管如此,諸如DREAM挑戰(Dialogue on Reverse Engineering Assessment and Methods Challenges)等大型基準測試項目,可以促進未來因果推理系統生物學工具的開發與評估。
參考資料
1. Subramanian, A., Tamayo, P., Mootha, V.K., Mukherjee, S., Ebert, B.L., Gillette, M.A., Paulovich, A., Pomeroy, S.L., Golub, T.R., Lander, E.S., and Mesirov, J.P. (2005). Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. USA 102, 15545–15550.
2. Eid, F.-E., Elmarakeby, H.A., Chan, Y.A., Fornelos, N., ElHefnawi, M., Van Allen, E.M., Heath, L.S., and Lage, K. (2021). Systematic auditing is essential to debiasing machine learning in biology. Commun Biol 4, 183.
3. Bradley, G., and Barrett, S.J. (2017). CausalR: extracting mechanistic sense from genome scale data. Bioinformatics 33, 3670–3672.
4. Liu, A., Trairatphisan, P., Gjerga, E., Didangelos, A., Barratt, J., and Saez- Rodriguez, J. (2019). From expression foot-prints to causal pathways: contextualizing large signaling networks with CARNIVAL. NPJ Syst. Biol. Appl. 5, 40.
5. Paull, E.O., Carlin, D.E., Niepel, M., Sorger, P.K., Haussler, D., and Stuart, J.M. (2013). Discovering causal pathways linking genomic events to transcriptional states using Tied Diffusion Through Interacting Events (TieDIE). Bioinformatics 29, 2757–2764.
6. Babur, O ? ., Luna, A., Korkut, A., Durupinar, F., Siper, M.C., Dogrusoz, U., Vaca Jacome, A.S., Peckner, R., Christianson, K.E., Jaffe, et al. (2021). Causal interactions from proteomic profiles: Molecular data meet pathway knowledge. Patterns 2. https://doi.org/10. 1016/j.patter.2021.100257.
7. Szalai, B., and Saez-Rodriguez, J. (2020). Why do pathway methods work better than they should? FEBS Lett. 594, 4189–4200.
8. Dugourd, A., Kuppe, C., Sciacovelli, M., Gjerga, E., Gabor, A., Emdal, K.B., Vieira, V., Bekker-Jensen, D.B., Kranz, J., Bindels, E.M.J., et al. (2021). Causal integration of multiomics data with prior knowledge to generate mechanistic hypotheses. Mol. Syst. Biol. 17, e9730.
9. Keenan, A.B., Jenkins, S.L., Jagodnik, K.M., Koplev, S., He, E., Torre, D., Wang, Z., Dohlman, A.B., Silverstein, M.C., Lachmann, A., et al. (2018). The Library of Integrated Network-Based Cellular Signatures NIH Program: System-Level Cataloging of Human Cells Response to Perturbations. Cell Syst. 6, 13–24.
10. Gabor, A.,Tanevski, J., Guo, B., Cao, W., Shen, H., Yu, T., Chung, V., Signaling, S.C., et al. (2021). Cell-to-cell and type-to-type heterogeneity of signaling networks: Insights from the crowd. bioRxiv. https://doi.org/10.1101/ 2021.03.23.436603.
原文鏈接:
https://www.cell.com/patterns/fulltext/S2666-3899(21)00113-6
原標題:《系統生物學中的建模:因果理解先于預測》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司