- +1
他們甘當“人肉地毯”,只為能讓天河一號“跑”起來

“天河一號”二期系統進駐國家超算天津中心首期工程——通信光纖鋪設甫一開始,就遇到了大麻煩。
鋪設光纖的溝槽溫度高達40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出了線芯。
這個問題不解決,后果不堪設想。輕者信號中斷、通信短路,重則導致系統紊亂。
怎么辦?工程現場指揮員的舉動出人意料,他把衣褲一脫,跳進悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條“人肉地毯”,一根根光纖順著的工程人員的身軀通暢地向前延伸。
光纖鋪設過程中,幾十人在悶熱的溝槽里赤身裸背爬了數十天,被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫發無損。
等到“天河一號”二期系統試機那天,開機運行的一瞬間,全部線路暢通無阻。
不久后的11月,我國首臺千萬億次超級計算機“天河一號”以驚人的運算速度在全球超級計算機500強榜單中位居世界第一,這也是五星紅旗第一次插上世界超算之巔。
1983年我國巨型機實現“零”的突破,到“天河一號”大顯王者風范,歷經數位科學家的艱苦探索,中國超算不斷沖擊巔峰,高端應用連續兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。
以“神威?太湖之光”和2017年完成技術升級和系統優化的“天河二號”為標志,我國超級計算機具備了從自主微處理器、自主互聯、自主軟件系統到自主應用的全方位自主研制。伴隨著改革開放的時代大潮,我國高性能計算機完成了從“跟跑”到“領跑”的歷史跨越。
再見!屈辱的玻璃房子
“中國要搞四個現代化,不能沒有巨型機!”1978年,在中央召開的一次重要會議上,鄧小平同志的這句話擲地有聲。隨即,他代表黨中央、國務院將這一任務交給國防科技大學。
時任該校計算機研究所所長的慈云桂教授聽到這個消息,當即向上級立下軍令狀:每秒一億次一次不少,6年時間一天不拖,預算經費一分不超。“就算是豁出這條老命,也要把中國的巨型機搞出來!”
在中國老一代超算人的心里,藏著一段關于玻璃房子的心痛往事。
20世紀80年代,中國氣象部門想從美國克雷公司進口一臺計算機,美國人死活不肯賣。后來好不容易松口了,但美國政府要對出口中國的高性能計算機進行監視,即在計算機機房安裝監視儀器,機器也要封在玻璃機房里,由他們自己人使用監控,不許中國科技人員進去。

面對西方國家如此嚴密的技術封鎖,以慈云桂教授為代表的第一代中國計算機科技人員敢為人先,率領國防科大計算機科研隊伍,在1983年12月研發出中國第一臺億次巨型電子計算機,取名為“銀河”。中國從此成為繼美、日之后能獨立設計和制造巨型機的國家。
1993年,德國曼海姆大學漢斯·埃里克教授等開始實施國際TOP500排名。彼時,國防科大銀河系列超級計算機關鍵技術攻堅勢如破竹。但每當中國躍上一個新臺階,美國或日本不久便會宣布研制出世界上運算速度最快的超級計算機。似乎,中國的超算水平總是比別人差那么一點點。
進入21世紀,世界超級計算機發展遭遇“冰封”時期。科學家們為了提高超算系統的整體性能,只能依賴于加大系統規模:比如計算機體積有幾個足球場那么大、需要建一個專用的發電站才能滿足它的功耗。2004年日本的“地球模擬器”,雖然一度搶占國際TOP500排名第一,但其機房竟需要四層樓,銅質電纜有上百公里長。
超算技術再跨越,需要新的體系結構理論來支撐。這也意味著中國和美、日等發達國家處于同一起跑線,中國在超算領域決戰決勝、沖擊巔峰的時機來臨!
死磕到底,科學家“著了魔”
2006年開始,楊學軍和他的團隊,開始了一場極富創意甚至有點冒險的主動出擊戰。其時,國家制定了“先研制兩臺百萬次超級計算機、再研制一臺千萬億次超級計算機”的“兩步走”戰略。但以楊學軍為總設計師的總師組,經過深入技術調研、反復權衡利弊,決定從每秒10萬億次直接沖刺每秒1000萬億次,走別人沒有走過的CPU+GPU技術路線。這一超常決策引起一片嘩然。

CPU(通用微處理器)+GPU(專用微處理器)異構融合體系結構,形象地說,就是把眾多CPU、GPU有機地連成一枚“捆綁式火箭”。所謂“一個和尚挑水喝,兩個和尚抬水喝,三個和尚沒水喝。”把數千個CPU和數千個GPU組合成一個“大廟”,它們還能賣力“挑水”嗎?
失敗的滋味,不好受。2009年3月,他們把CPU、GPU這兩類“和尚”組合起來,竟發現總性能還不到600億次,而一顆CPU就有近500億次的性能。也就是說GPU雖然用于圖像處理速度驚人,但讓它與CPU放在一塊用于科學計算,就變得非常懶惰,計算效能只有20%左右。
難道,這條路真的走錯了嗎?楊學軍不信邪。他向妻子招招手:“你去把車開來,帶我出去轉轉。”車子駛出高速收費站時,楊學軍掏出手機,堅定地說:“別人不敢走的路,并不等于走不通。從技術原理分析,GPU的計算性能,通過軟件優化,是可以大幅提高的……”

在長沙郊區的一個抗洪指揮部,國防科大超級計算機創新團隊來了一次長達半年的“閉關”,成員們整天貓在那棟三層小樓里,眼睛只盯著顯示屏,從早上7點盯到午夜。
功夫不負有心人,突擊隊連續奮戰四個月,先后改進優化8萬余次,創造了一個科學奇跡:GPU計算效能躍升至70%以上,達到世界最高水平!
奇跡背后的“上甘嶺戰役”
2009年國慶節來臨前夕,每秒千萬億次超級計算機一期系統安裝完畢。同年10月29日,我國第一臺每秒千萬億次超級計算機橫空出世,中國成為世界上第一個掌握CPU+GPU異構融合體系結構技術、第二個研制出每秒千萬億次超級計算機的國家。時任中共中央總書記、國家主席、中央軍委主席胡錦濤聞訊,親自為她題名“天河”。

奇跡真的發生了。
2010年11月,在世界超級計算大會上,“天河一號”二期系統以計算峰值高出第二名 “美洲虎”兩倍多的絕對優勢,勇奪國際TOP500排名第一,打破了美國在超級計算機領域長期一家獨大的局面,標志著我國自主研制的超級計算機綜合技術水平跨入世界領先行列。
在奮起直追的路上,有多少個不眠之夜,又有多少次激流勇進,數不清,道不明。這樣的奇跡,來自超強的膽魄,也來自超出常人的艱辛。參與人員說,真是打了幾場“上甘嶺”。比如,通信光纖的保衛戰。

哪知施工第一天剛鋪了幾根,施工指揮員拿起一看,立刻傻眼了。時值盛夏,溝槽溫度高達40多度,水泥表層太粗糙,光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出線芯。這個問題不解決,后果不堪設想。輕者信號中斷、通信短路,重則導致系統紊亂。
指揮員做出了大膽的行為。他把衣褲一脫,跳進悶熱的溝槽,俯臥在粗糙的水泥地上。大家紛紛效仿,很快鋪就了一條“人肉地毯”,一根根光纖順著官兵的身軀通暢地向前延伸。
幾十個人在粗糙悶熱的溝槽里赤身裸背爬了數十天,一個個被堅硬的水泥地和光纖刮擦得遍體鱗傷,15000根光纖卻毫發無損。
就這樣,等到“天河一號”二期系統試機那天,打開機器的一瞬,全部通信線路暢通無阻。
這樣的中國超算,值得喝彩
喜悅還未退去,質疑接踵而至。
在“天河一號”取得世界第一不久后,很多國內外的專家和媒體質疑其中看不中用,甚至還有專家調侃 “天河一號”實際上就是一臺大游戲機。“當時,我就怒了!”國家超級計算天津中心應用研發部部長孟祥飛立下了軍令狀,干不好“天河一號”的應用就卷鋪蓋走人。
如何讓更多企業、院校、科研單位成為“天河一號”的用戶?孟祥飛把自己的團隊打造成售前、售后、研發的“三體”。為了讓“天河一號”忙起來,孟祥飛一年常常要跑上四、五十個城市,行程最多時可以繞地球兩圈。經過不懈努力,現在每天在“天河一號”平臺上并發在線的研發任務有近1400項,每天要完成近萬項計算任務。“天河一號”成為了名副其實的“國之重器”。
今年6月25日,新一期全球超級計算機500強榜單發布,美國超級計算機“頂點”以峰值速度每秒20億億次占據榜首。在上榜的超算總數上,中國以206臺位居第一,美國為124臺。

同時,我國超級計算機在應用的普及性和廣泛性方面發展態勢良好,高端應用連續兩次獲得國際高性能計算機的最高獎——戈登貝爾獎。以“神威?太湖之光”和2017年完成技術升級和系統優化的“天河二號”為標志,我國超級計算機具備了從自主微處理器、自主互聯、自主軟件系統到自主應用的全方位自主研制。


(原標題:他們甘當“人肉地毯”,只為能讓天河一號“跑”起來)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司