
在科技創(chuàng)新深度融入國家戰(zhàn)略需求、關鍵核心技術亟待突破的時代浪潮中,第十九屆 “挑戰(zhàn)杯” 全國大學生課外學術科技作品競賽 “揭榜掛帥” 擂臺賽,正成為匯聚高??蒲辛α俊⒅睋粜袠I(yè)痛點、催生創(chuàng)新成果的核心平臺。作為國內大學生科創(chuàng)領域的頂級賽事,本屆 “挑戰(zhàn)杯” 規(guī)模再創(chuàng)新高,吸引了全國 2700 余所高校的 300 余萬名青年學子踴躍參與,賽事覆蓋之廣、參與熱情之高,彰顯了當代大學生投身科研、服務國家的青春擔當。
清華大學共選送6個主體賽項目和53個“揭榜掛帥”專項賽項目參加本屆“挑戰(zhàn)杯”競賽終審決賽。其中,清華大學軟件學院王建民老師的學生團隊獲得“揭榜掛帥”專項賽“新一代信息技術領域“《面向地球系統(tǒng)科學的海量網(wǎng)格類數(shù)據(jù)的分布式文件系統(tǒng)設計》榜題擂臺賽擂主獎(全國第一名)。
王建民老師團隊長期深耕時序數(shù)據(jù)管理領域,主導研發(fā)國產(chǎn)化時序數(shù)據(jù)庫 IoTDB,積累了扎實的技術儲備。此次他們精準對接地球系統(tǒng)科學研究中的實際痛點,創(chuàng)新性地將數(shù)據(jù)庫技術與分布式文件系統(tǒng)相結合,打造出 IoTDB-FS 系統(tǒng),為海量網(wǎng)格類數(shù)據(jù)存儲與高效訪問提供了全新解決方案。帶著對青年一代如何扎根實際需求、攻克技術難關、踐行科研使命的深層好奇,清華大學軟件學院老師徐昊走進學院實驗室,與本次 “揭榜掛帥” 擂臺賽擂主團隊核心成員 —— 在讀博士生張洪胤、在讀碩士生林欣濤展開深度對話,一同探尋他們從瞄準行業(yè)痛點到登頂全國賽事的科創(chuàng)之路,解鎖青年科研者 “用積累破難題、用創(chuàng)新赴使命” 的成長密碼。
一、團隊故事與項目緣起

徐昊:本屆 “挑戰(zhàn)杯”“揭榜掛帥” 擂臺賽匯集了多個行業(yè)的技術難題,咱們團隊為何選中氣象領域提出的 “海量網(wǎng)格類數(shù)據(jù)分布式文件系統(tǒng)設計” 這一課題?
張洪胤:選擇這個賽題主要有兩方面的考慮,其一是團隊長期以來在相關領域有一定技術儲備。無論是時序數(shù)據(jù)的管理與存儲,還是氣象數(shù)據(jù)應用場景,團隊都有一定的認知基礎。其二是團隊也在探索運用數(shù)據(jù)庫技術實現(xiàn)分布式文件系統(tǒng),希望針對一個真實問題進行嘗試,進一步拓展數(shù)據(jù)庫技術的應用場景。
徐昊:能否為我們詳細解讀一下這個賽題的核心訴求和行業(yè)背景?
張洪胤:該賽題希望解決地球系統(tǒng)科學領域的海量網(wǎng)格類數(shù)據(jù)的管理難題。在地球系統(tǒng)科學領域,隨著地面、雷達、衛(wèi)星等觀測技術快速發(fā)展,高性能計算能力持續(xù)增強,全球大氣、海洋、陸地、冰凍、生物等多圈層的監(jiān)測和預報的分辨率不斷提升,網(wǎng)格類數(shù)據(jù)的空間分辨率達到公里級,時間分辨率達到小時級,單個文件達到10GB,單數(shù)據(jù)中心在線存儲量已超100PB,且持續(xù)不斷增長。而對于網(wǎng)格類數(shù)據(jù),在數(shù)據(jù)存儲上,其一般采用分布式文件系統(tǒng),基于文件系統(tǒng)內的元數(shù)據(jù),定位到文件物理位置。數(shù)據(jù)格式上一般采用國際通用的 GRIB 等自描述格式,將多要素、多層次的數(shù)十個到上百個網(wǎng)格場壓縮到一個文件中。在數(shù)據(jù)訪問上,用戶一次只使用部分場,或是一個場的部分。此類數(shù)據(jù)格式配套提供相應的數(shù)據(jù)處理開發(fā)包,基于自描述信息,提供對局部數(shù)據(jù)塊的網(wǎng)格場抽取、空間裁剪等方法,支持用戶訪問、解析和使用數(shù)據(jù)。隨著文件數(shù)量以及單個文件體量的快速增長,對地球系統(tǒng)科學領域網(wǎng)格類數(shù)據(jù)的使用效率也逐步下降,這已成為地球系統(tǒng)科學研究和應用領域"卡脖子"的瓶頸問題,為此就有必要去設計并實現(xiàn)一套面向地球系統(tǒng)科學領域的海量網(wǎng)格類數(shù)據(jù)的分布式文件系統(tǒng)。
徐昊:聽起來這個賽題的難度不小,其中有哪些難啃的 “硬骨頭”?
張洪胤:有三個難點。
第一個難點在于,我本身是軟件工程專業(yè)出身,需要先補上一整塊“跨學科的功課”:一方面要系統(tǒng)學習并理解地球系統(tǒng)科學領域是如何使用網(wǎng)格類數(shù)據(jù)的,另一方面也要弄清楚這類數(shù)據(jù)本身有哪些特征和規(guī)律。只有在真正吃透數(shù)據(jù)的結構和特點之后,我們才能談得上把這種數(shù)據(jù)格式“存好”“管好”。
第二個難點在于,我們在設計并實現(xiàn)一套定制化的分布式文件系統(tǒng)時,并不希望它“造出來就沒人用”——如果和現(xiàn)有生態(tài)不兼容、使用門檻太高,大家上手就會很困難。所以,我們面臨的核心問題就是:一方面要盡可能兼容主流文件系統(tǒng)的使用方式和操作習慣,讓用戶幾乎“不用改用法”就能遷移;另一方面,還要在此基礎上為用戶提供更高效的數(shù)據(jù)訪問能力。
第三個難點在于保障系統(tǒng)的性能和可靠性。我們需要讓這套定制化的文件系統(tǒng)在高并發(fā)場景下,仍然能夠穩(wěn)定、高效地響應用戶對網(wǎng)格類數(shù)據(jù)的存儲和查詢需求,同時還要具備較好的高可用性,真正做到數(shù)據(jù)不丟失、不損壞。
徐昊:從項目啟動到最終奪冠,整個過程經(jīng)歷了哪些關鍵階段?有沒有讓兩位印象深刻的 “攻堅時刻”?
林欣濤:整個項目歷程大致可以劃分為五個階段:賽題理解、技術選型、原型攻關、工程化打磨以及答辯沖刺。6 月份,在王建民老師、黃向東老師、龍明盛老師的帶領下,我們系統(tǒng)梳理并深入理解了氣象業(yè)務場景,基于對業(yè)務需求的全面把握,初步鎖定了以國產(chǎn)化時序數(shù)據(jù)庫 IoTDB 為技術底座、疊加定制化分布式文件系統(tǒng)的總體技術路線。
7月初,我們圍繞 GRIB 文件格式、FUSE 等文件系統(tǒng)相關技術開展了較為深入的調研和比選,最終確定采用與 IoTDB 深度融合的“基于數(shù)據(jù)庫技術實現(xiàn)文件系統(tǒng)”方案。7 月底至 8 月中旬,代碼開發(fā)進入高強度迭代階段,我們先后完成了首版 GRIB 文件的讀寫能力和 FUSE 掛載功能,并在此基礎上,逐步打通了從 GRIB 寫入、索引構建到網(wǎng)格數(shù)據(jù)讀取的全鏈路流程,使系統(tǒng)整體技術路徑逐漸成形。
初賽前夕,我們完成了在國產(chǎn)麒麟操作系統(tǒng)環(huán)境下的系統(tǒng)部署與性能測試,驗證了在國產(chǎn)軟硬件平臺上的可用性與穩(wěn)定性。進入 10 月,我們重點擴展了在 macOS 平臺上的展示方案,補充完成了與 FTP、MySQL 等系統(tǒng)的對比實驗,并于 10 月 27 日順利完成終審答辯,最終成功奪得擂主,實現(xiàn)了從方案構想到系統(tǒng)落地再到賽場驗證的完整閉環(huán)。
張洪胤:最難忘的一次攻堅,是在適配國產(chǎn)軟硬件平臺的時候。我們希望文件系統(tǒng)能穩(wěn)定運行在國產(chǎn)操作系統(tǒng)上,但在麒麟環(huán)境下,各類驅動和內核版本的適配問題接連出現(xiàn)。那段時間我們一邊查資料、一邊向老師和社區(qū)請教,反復調試,最終在初賽前完成了麒麟系統(tǒng)上的穩(wěn)定編譯和運行,讓這套分布式文件系統(tǒng)真正跑在了國產(chǎn)操作系統(tǒng)平臺上。
二、技術創(chuàng)新:破解行業(yè)痛點的核心密碼
徐昊:這個項目的技術專業(yè)性很強,對于沒有相關背景的人來說可能難以理解。能否用通俗的語言解釋一下 “基于數(shù)據(jù)庫技術實現(xiàn)分布式文件系統(tǒng)” 的核心原理?
張洪胤:如果說傳統(tǒng)文件系統(tǒng)是“存文件的倉庫”,數(shù)據(jù)庫比較像是“存結構化數(shù)據(jù)信息的檔案室”,那么我們的 IoTDB-FS 就像是把倉庫和檔案室打通,讓系統(tǒng)既能理解文件的組織結構,同時也能理解文件內的每一個網(wǎng)格場。我們把網(wǎng)格數(shù)據(jù)與其本身內部結構的索引存入數(shù)據(jù)庫,通過多級索引實現(xiàn)按需訪問。用戶想取部分數(shù)據(jù)時,不再需要讀取整個數(shù)據(jù)塊,而是可以根據(jù)我們構建的索引去直接定義到文件內的某一個網(wǎng)格場數(shù)據(jù),從而返回精準的切片。
徐昊:本次能夠拿下擂主,項目的核心技術突破點有哪些?
張洪胤:主要有三方面:其一是設計并實現(xiàn)樹表雙模型的元數(shù)據(jù),讓一個數(shù)據(jù)項能夠同時具備文件語義和數(shù)據(jù)庫語義;其二是為時序數(shù)據(jù)庫IoTDB增加 Object 數(shù)據(jù)類型,實現(xiàn)大文件的快速高可用存儲;其三是設計并實現(xiàn)兩級索引結構,實現(xiàn)文件快速定位,文件內高效尋址。
徐昊:我看我們這一次的獲獎方案名叫 “IoTDB-FS”,IoTDB 是前綴,是不是說明方案是在 IoTDB 基礎上擴展的?為什么選擇 IoTDB 而不是其他數(shù)據(jù)庫作為技術底座?
張洪胤:IoTDB 是我們認為非常符合該應用場景的數(shù)據(jù)庫。作為一個開源、高性能的時序數(shù)據(jù)庫管理系統(tǒng),它專門面向物聯(lián)網(wǎng)、大數(shù)據(jù)等場景設計,支持海量時序數(shù)據(jù)的高效寫入、存儲和查詢。Apache IoTDB 采用Apache 2.0 許可證開源,擁有活躍的開源社區(qū)和不斷發(fā)展的生態(tài)體系。Apache IoTDB 在架構設計上支持分布式部署,通過多節(jié)點協(xié)同工作實現(xiàn)數(shù)據(jù)的橫向擴展和高可用設計,支持多種共識協(xié)議確保多副本環(huán)境下的數(shù)據(jù)的一致性和可靠性。更重要的是,我們熟悉 IoTDB 的底層機制,能夠在其生態(tài)上實現(xiàn)高度工程化、可落地的創(chuàng)新。
徐昊:對比傳統(tǒng)分布式文件系統(tǒng)、通用數(shù)據(jù)庫這些同類技術,IoTDB-FS 的核心競爭力體現(xiàn)在哪里?有沒有具體測試數(shù)據(jù)支撐?
張洪胤:其一,IoTDB-FS 不僅僅提供文件系統(tǒng)的訪問方式,還支持地球系統(tǒng)科學領域常見的時空穿透查詢,用戶可以通過API訪問的方式跨文件提取目標數(shù)據(jù)。其二,IoTDB-FS具有非常好的可擴展性,得益于核心組件 FUSE 以及 IoTDB 的生態(tài),其可以與其他大數(shù)據(jù)生態(tài)軟件高效適配。其三,IoTDB-FS 相較于 FTP 方式以及其他基于關系型數(shù)據(jù)庫的實現(xiàn)方式具有數(shù)量級級別的性能提升。
徐昊:如果面對更大規(guī)模的網(wǎng)格數(shù)據(jù),目前的技術架構能支撐嗎?需要做哪些調整?
張洪胤:主要是需要擴展底層的 IoTDB 集群的節(jié)點數(shù)量以及實際使用的機器數(shù)量。由于 IoTDB 支持原生分布式,因此當前技術架構具有較好的可擴展性。
三、科創(chuàng)感悟:從 “揭榜” 到 “奪冠” 的成長與沉淀
徐昊:回顧整個項目歷程,有哪些成功經(jīng)驗和避坑教訓想分享?
林欣濤:我認為本次項目的成功經(jīng)驗主要體現(xiàn)在兩個方面。
第一,我們始終從真實的產(chǎn)業(yè)問題出發(fā)開展實踐。團隊緊緊圍繞海量 GRIB 文件管理過程中的核心痛點,例如局部訪問速度較慢、元數(shù)據(jù)不可見等問題,反向推導技術路線和系統(tǒng)架構設計。從數(shù)據(jù)的組織方式、索引機制設計到底層存儲布局優(yōu)化,各個環(huán)節(jié)都圍繞“提升用戶使用體驗、支撐大規(guī)模業(yè)務應用”這一目標進行取舍與權衡,確保系統(tǒng)從一開始就面向真實生產(chǎn)場景,具備較強的工程可落地性,并能夠在實際業(yè)務環(huán)境中經(jīng)受住檢驗。
第二,我們選擇在成熟基礎之上做創(chuàng)新,站在“巨人的肩膀上”向前走。我們選用了已經(jīng)經(jīng)過十余年打磨,并在空、天、地、海等多個領域獲得廣泛應用的時序數(shù)據(jù)庫 IoTDB 作為技術基座,在繼承其高可用、高吞吐寫入、高壓縮存儲以及復雜查詢優(yōu)化等成熟能力的基礎上,結合氣象網(wǎng)格數(shù)據(jù)的特性,進行了有針對性的二次結構設計和功能創(chuàng)新,使 IoTDB 從一款通用時序數(shù)據(jù)庫,自然演進為能夠支撐網(wǎng)格類數(shù)據(jù)高效存儲管理與訪問的專業(yè)數(shù)據(jù)文件系統(tǒng)技術底座。
至于教訓,我覺得我們在前期確實低估了系統(tǒng)工程實現(xiàn)的復雜度。項目初期,團隊幾乎將主要精力全部投入到核心功能代碼的實現(xiàn)上,留給不同環(huán)境下的適配、系統(tǒng)性能調優(yōu)以及文檔撰寫的時間相對不足,導致中后期在面對多平臺支持和材料準備時節(jié)奏偏緊。這也提醒我們,在后續(xù)類似項目中需要更加前置地規(guī)劃工程實現(xiàn)、環(huán)境適配和文檔工作的時間分配,把整個系統(tǒng)工程作為一個整體去統(tǒng)籌安排。
張洪胤:我補充一點教訓。即團隊對于系統(tǒng)級工程的復雜度以及工作量有所低估,前期時間幾乎都在核心代碼編寫上,留給環(huán)境適配、性能調優(yōu)以及文檔優(yōu)化的時間偏少。
徐昊:對于想?yún)⒓涌苿?chuàng)競賽,尤其是 “揭榜掛帥” 類賽道的學弟學妹,你們有什么具體建議?
張洪胤:第一,選問題要選真問題,一方面自己要對問題本身有足夠的了解,另一方面這個問題要具有一定的現(xiàn)實意義;第二,團隊組建要注意互補,包括產(chǎn)品設計、技術實現(xiàn)、文檔撰寫以及PPT制作,能夠彼此支撐;第三,要及時和指導老師溝通和交流,老師們能夠為我們的方案以及實現(xiàn)提供非常專業(yè)的指導,有助于提升我們的作品;第四,一定要提前安排好各項工作的時間線,避免截止日期臨近特別緊張。最后,不要怕遇到困難,正所謂“寶劍鋒自砥礪出,梅花香自苦寒來”,要敢于直面和解決真問題。
徐昊:用一個詞或一句話形容這次 “挑戰(zhàn)杯” 參賽經(jīng)歷,會是什么?
張洪胤:“破圈成長”。一方面,之前沒有想到博士的階段還會去參加揭榜掛帥這樣的工作,參與地球系統(tǒng)科學領域相關的軟件開發(fā),把論文寫到祖國大地上;另一方面,首次嘗試運用數(shù)據(jù)庫技術構建分布式文件系統(tǒng),對我而言是一個全新的嘗試。
林欣濤:我認為,這次參賽經(jīng)歷是一段真刀真槍去解決真實的產(chǎn)業(yè)難題的經(jīng)歷。我們完整走通從問題洞察到方案落地全流程的實踐過程,讓我們切身體會到,科研工作的價值就在于直面真問題、解決真問題。我覺得這次經(jīng)歷是非常寶貴的。
徐昊:從實驗室的反復打磨到賽場的脫穎而出,IoTDB-FS 不僅破解了真實場景的網(wǎng)格數(shù)據(jù)存儲難題,更展現(xiàn)了當代大學生的科研擔當與創(chuàng)新精神。感謝張洪胤、林欣濤同學的分享,也期待這個項目能在更多行業(yè)落地生根,創(chuàng)造更大價值!
賽事背景
“挑戰(zhàn)杯” 全國大學生課外學術科技作品競賽創(chuàng)辦于 1989 年,是由共青團中央、中國科協(xié)、教育部、中國社會科學院、全國學聯(lián)和地方政府共同主辦的全國性大學生科技創(chuàng)新賽事,被譽為當代大學生科技創(chuàng)新的 “奧林匹克” 盛會,也是衡量高校人才培養(yǎng)質量和科技創(chuàng)新實力的重要標志之一。賽事始終以 “崇尚科學、追求真知、勤奮學習、銳意創(chuàng)新、迎接挑戰(zhàn)” 為宗旨,聚焦國家戰(zhàn)略和社會需求,為青年學子搭建了展示科創(chuàng)才華、實現(xiàn)成果轉化、服務國家發(fā)展的重要平臺。
第十九屆 “挑戰(zhàn)杯” 全國大學生課外學術科技作品競賽在競賽架構上分為主體賽和 “揭榜掛帥” 專項賽兩大板塊。主體賽涵蓋機械與控制、信息技術、數(shù)理、生命科學、能源化工、經(jīng)濟、政治、文化、社會、生態(tài)文明建設等十個學科門類,鼓勵學生圍繞各領域基礎研究和應用研究開展創(chuàng)新實踐;“揭榜掛帥” 專項賽則創(chuàng)新性地采用 “企業(yè)出題、高校揭榜、現(xiàn)場擂臺” 的模式,聚焦新一代信息技術、高端裝備制造、新材料、新能源等關鍵核心技術領域的實際痛點,由行業(yè)龍頭企業(yè)、科研院所等發(fā)布真實技術需求,高校團隊針對性開展攻關,旨在打通產(chǎn)學研用協(xié)同創(chuàng)新鏈條,推動青年創(chuàng)新成果與產(chǎn)業(yè)需求精準對接。
本屆賽事規(guī)模再創(chuàng)新高,共有來自全國 2700 多所高校的超過 300 萬名大學生報名參賽,提交作品數(shù)量突破百萬件,參賽覆蓋面和參與熱情均創(chuàng)歷史紀錄。清華大學在本屆賽事中表現(xiàn)尤為突出,共斬獲主體賽特等獎 5 項、一等獎 1 項;在 “揭榜掛帥” 專項賽中,更是一舉拿下擂主(全國第一名)4 項、特等獎 7 項,最終以全國第一的成績第八次捧起 “挑戰(zhàn)杯”,繼續(xù)保持該賽事創(chuàng)辦以來奪冠次數(shù)最多的紀錄,彰顯了清華在培養(yǎng)拔尖創(chuàng)新人才、服務國家科技創(chuàng)新戰(zhàn)略方面的深厚底蘊和卓越實力。
① 凡本站注明“稿件來源:中國教育在線”的所有文字、圖片和音視頻稿件,版權均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權不得轉載、鏈接、轉貼或以其他方式復制發(fā)表。已經(jīng)本站協(xié)議授權的媒體、網(wǎng)站,在下載使用時必須注明“稿件來源:中國教育在線”,違者本站將依法追究責任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯(lián)系。




教育在線

