掃碼查看

科學(xué)大模型:“上線”之路還有多遠(yuǎn)

科技日?qǐng)?bào) 2025-01-09 16:37

科技日?qǐng)?bào)

2025-01-09 16:37

全文播報(bào)

思想

進(jìn)入頻道

只需輸入一段文字，電腦便會(huì)將其轉(zhuǎn)化成栩栩如生的畫面；只需問(wèn)一句“哪里的飯好吃”，導(dǎo)航軟件就能帶你吃遍當(dāng)?shù)仫L(fēng)味……大模型通常具有高度的通用性和廣泛的適用性，已經(jīng)在自然語(yǔ)言處理、圖像識(shí)別和語(yǔ)音識(shí)別等眾多領(lǐng)域大放異彩。

然而，這僅是人工智能大模型應(yīng)用的“冰山一角”。尤其是在科研領(lǐng)域，其無(wú)限潛能還有待深入挖掘。

2024年12月7日，地球科學(xué)領(lǐng)域垂直大模型——“元古大模型”在中國(guó)地質(zhì)大學(xué)（武漢）發(fā)布，可對(duì)古生物化石進(jìn)行復(fù)原。去年9月，在北京發(fā)布的全球首個(gè)多模態(tài)地理科學(xué)大模型“坤元”因具備處理地理科學(xué)相關(guān)問(wèn)題的專業(yè)能力，被稱為“智能地理學(xué)家”。

“科學(xué)大模型或許可以引發(fā)科研范式和方法上的革命?！?nbsp;北京智源人工智能研究院（以下簡(jiǎn)稱“智源研究院”）院長(zhǎng)王仲遠(yuǎn)告訴記者，科學(xué)大模型作為一種新興工具，目前尚未在高校、科研院所以及企業(yè)進(jìn)行大范圍應(yīng)用，除了技術(shù)層面的原因，其推廣還面臨諸多挑戰(zhàn)。

賦能科學(xué)研究

大模型參與科研活動(dòng)的基本原理是什么？用一個(gè)詞來(lái)回答，就是“模擬”。正如語(yǔ)言大模型可以模擬語(yǔ)言文本信息一樣，科學(xué)大模型旨在模擬復(fù)雜的科學(xué)現(xiàn)象。

中國(guó)空氣動(dòng)力學(xué)研究與發(fā)展中心研究員錢煒祺介紹，廣義的大模型，是指具有大量參數(shù)和復(fù)雜結(jié)構(gòu)的深度學(xué)習(xí)模型。參考目前業(yè)界主流觀點(diǎn)，可將大模型分為大語(yǔ)言模型、視覺大模型和科學(xué)大模型。

其中，科學(xué)大模型主要處理和分析數(shù)值、科學(xué)領(lǐng)域數(shù)據(jù)，對(duì)其理解物理規(guī)律和知識(shí)生成的能力。“相比語(yǔ)言和視覺信息，科學(xué)數(shù)據(jù)通常具有超高維度、非線性、強(qiáng)空間差異性等特點(diǎn)，為此大模型需要理解的物理現(xiàn)象極其復(fù)雜。相較于大語(yǔ)言模型和計(jì)算機(jī)視覺大模型，科學(xué)大模型發(fā)展的成熟度相對(duì)較低?！卞X煒祺說(shuō)。

盡管研發(fā)難度高、挑戰(zhàn)大，科學(xué)大模型目前已經(jīng)取得了許多突破，并且已用于科研實(shí)踐，在藥物研發(fā)、材料科學(xué)、分子模擬、天氣預(yù)報(bào)、流場(chǎng)預(yù)測(cè)等領(lǐng)域發(fā)揮作用。

2024年12月1日，福布斯中國(guó)與全球商業(yè)研究院聯(lián)合發(fā)布“2024中國(guó)新時(shí)代顛覆力創(chuàng)始人評(píng)選”名單。北京分子之心科技有限公司（以下簡(jiǎn)稱“分子之心”）創(chuàng)始人兼首席科學(xué)家許錦波入圍。

“現(xiàn)在，人工智能已經(jīng)改變了分子生物學(xué)的研究范式。過(guò)去研究者要基于氨基酸序列來(lái)研究蛋白質(zhì)功能，現(xiàn)在可以直接基于人工智能預(yù)測(cè)出的結(jié)構(gòu)進(jìn)行功能研究?！痹S錦波說(shuō)，“我們還在運(yùn)用蛋白質(zhì)生成大模型進(jìn)行精準(zhǔn)的蛋白質(zhì)優(yōu)化與設(shè)計(jì)，這顛覆了過(guò)去生物醫(yī)藥、生物制造等產(chǎn)業(yè)領(lǐng)域的蛋白質(zhì)發(fā)現(xiàn)與改造方式?！?/p>

用模型解開萬(wàn)物之奧秘，正是大模型輔助科研的最大優(yōu)勢(shì)。在其近年來(lái)的應(yīng)用方向當(dāng)中，生物計(jì)算領(lǐng)域成果頗豐。

智源研究院于2024年6月推出的“全家桶”中，就包括生物計(jì)算大模型。該模型搭建了全球首個(gè)數(shù)字孿生心臟電功能超實(shí)時(shí)仿真系統(tǒng)，包含了19種細(xì)胞生理狀態(tài)變量和70多個(gè)公式，能夠?qū)崿F(xiàn)復(fù)雜的心臟電生理與病理的仿真。

除了生物計(jì)算，科學(xué)大模型也在其他領(lǐng)域得到應(yīng)用。百度深度學(xué)習(xí)技術(shù)平臺(tái)部架構(gòu)師胡曉光告訴記者，當(dāng)前大模型與智能體已經(jīng)在科學(xué)計(jì)算領(lǐng)域得到應(yīng)用。例如，中國(guó)科學(xué)院自動(dòng)化研究所依托百度的“飛槳”和“文心”大模型，研制出材料學(xué)科科研智能體。一些前沿實(shí)驗(yàn)室正在采用大語(yǔ)言模型，進(jìn)行材料屬性預(yù)測(cè)和結(jié)構(gòu)生成。

華為輪值董事長(zhǎng)胡厚崑認(rèn)為，人工智能將數(shù)學(xué)計(jì)算和科學(xué)模型的方法結(jié)合，可以高效處理海量數(shù)據(jù)，解決原來(lái)傳統(tǒng)科學(xué)研究范式無(wú)法解決的問(wèn)題，幫助科研工作者突破科研瓶頸。

“科學(xué)大模型擁有非常大的潛力?！蓖踔龠h(yuǎn)說(shuō)，“目前人工智能大模型作為新興工具整體上還處于起步階段，但一些大模型已經(jīng)在包括科研在內(nèi)的許多領(lǐng)域發(fā)揮了作用?！?/p>

面臨諸多挑戰(zhàn)

在王仲遠(yuǎn)看來(lái)，過(guò)去10余年間，人工智能技術(shù)的幾次重大突破，并非單純算法層面的研究突破，其本質(zhì)是一個(gè)數(shù)據(jù)、算力、算法、評(píng)測(cè)等多團(tuán)隊(duì)高度協(xié)同的算法類系統(tǒng)性工程的落地。

在人工智能領(lǐng)域，特別是在科學(xué)大模型的研發(fā)上，要想取得突破性的創(chuàng)新，需要龐大且復(fù)雜的團(tuán)隊(duì)作戰(zhàn)與協(xié)同，大量集中的資源投入以及技術(shù)路線的研究探索與試錯(cuò)，單憑一所高?；蛘咭患移髽I(yè)很難做到。

“例如，作為一個(gè)研發(fā)周期長(zhǎng)、成本高的行業(yè)，生物制藥比較依賴已有的研發(fā)模式。如果引入新工具，需要慎重考慮其對(duì)成本、風(fēng)險(xiǎn)以及對(duì)收益分配的影響?！蓖踔龠h(yuǎn)說(shuō)，再如教育領(lǐng)域，特別是在與未成年人相關(guān)的應(yīng)用場(chǎng)景，應(yīng)用新技術(shù)需要社會(huì)各方的審慎思考，這涉及許多細(xì)微復(fù)雜的問(wèn)題。

西安電子科技大學(xué)電子工程學(xué)院教授、情感機(jī)器（北京）科技有限公司首席科學(xué)家吳家驥注意到，在高校的科研環(huán)境中，科學(xué)大模型的應(yīng)用也面臨諸多挑戰(zhàn)。

“那些簡(jiǎn)單的、可用公式表達(dá)的科學(xué)問(wèn)題，基本都被解決了。目前科學(xué)問(wèn)題公式的復(fù)雜程度，已經(jīng)超越了人類理解能力的極限?！眳羌殷K表示，科學(xué)大模型的工作極具交叉性，從提出好公式到設(shè)計(jì)出好的訓(xùn)練系統(tǒng)，從傳統(tǒng)科研實(shí)驗(yàn)流程到數(shù)據(jù)驅(qū)動(dòng)的AI實(shí)驗(yàn)范式，從找到好答案到提出好問(wèn)題，這些都對(duì)傳統(tǒng)認(rèn)知提出挑戰(zhàn)。

高端人才匱乏

“高校和企業(yè)，各有各的難處。例如，高校受資源和機(jī)制所限，企業(yè)則背負(fù)著營(yíng)收壓力，導(dǎo)致它們?cè)诖竽Ｐ蛻?yīng)用和研發(fā)方面，有時(shí)會(huì)‘伸不開手腳’。”王仲遠(yuǎn)說(shuō)，除了制度和資源，科學(xué)大模型在科研環(huán)境中落地最需要的基礎(chǔ)條件是人才。

2022年，許錦波在北京創(chuàng)立分子之心，很快聚集了一批頂尖復(fù)合型人才。這些成員兼具AI蛋白質(zhì)研究和產(chǎn)業(yè)實(shí)踐的經(jīng)驗(yàn)，其中核心研發(fā)團(tuán)隊(duì)博士占比90%以上。

“但從整個(gè)科學(xué)大模型領(lǐng)域來(lái)看，復(fù)合型人才非常稀缺?！痹S錦波告訴記者，以蛋白質(zhì)生成大模型為例，除了必備的算法、算力、數(shù)據(jù)等基礎(chǔ)條件外，應(yīng)用此類大模型還需要具備兩大專業(yè)能力。一是融合計(jì)算機(jī)、生物、物理等多學(xué)科，熟識(shí)人工智能、分子動(dòng)力學(xué)、量子計(jì)算等多種方法，且能在實(shí)踐中并行考慮序列與結(jié)構(gòu)、主鏈與側(cè)鏈、進(jìn)化與組學(xué)的跨領(lǐng)域融合能力；二是走出實(shí)驗(yàn)室，下沉至真實(shí)產(chǎn)業(yè)環(huán)境，在需求、驗(yàn)證、落地上貼近產(chǎn)業(yè)需求的能力。

北京社會(huì)科學(xué)院副研究員王鵬此前接受采訪時(shí)表示，人工智能技術(shù)發(fā)展日新月異，要求從業(yè)人員具備不斷更新知識(shí)體系和技能儲(chǔ)備，這對(duì)人才培養(yǎng)提出了更高要求。

人才短缺不僅限制了人工智能技術(shù)的創(chuàng)新和發(fā)展速度，也影響了相關(guān)企業(yè)在市場(chǎng)中的競(jìng)爭(zhēng)力，但這也為有志于投身人工智能領(lǐng)域的人才提供了廣闊的發(fā)展空間和良好的職業(yè)前景。

亟待多方發(fā)力

如錢煒祺所說(shuō)，科學(xué)大模型在幾類大模型當(dāng)中研發(fā)門檻最高，如何持續(xù)提升科學(xué)大模型的質(zhì)量，并推動(dòng)其應(yīng)用落地？

錢煒祺以空氣動(dòng)力學(xué)領(lǐng)域大模型為例，該領(lǐng)域目前已有成果大多借鑒了計(jì)算機(jī)領(lǐng)域通用技術(shù)，未來(lái)還需探索發(fā)展適用本領(lǐng)域的模型架構(gòu)。

空氣動(dòng)力學(xué)數(shù)據(jù)具有樣本少、規(guī)模大、模態(tài)多、獲取成本高等特點(diǎn)。要想做好相關(guān)的大模型，就必須基于領(lǐng)域特點(diǎn)進(jìn)行技術(shù)攻關(guān)。例如，可圍繞空氣動(dòng)力學(xué)相關(guān)基礎(chǔ)理論和人工智能領(lǐng)域發(fā)展遷移學(xué)習(xí)、小樣本學(xué)習(xí)和多模態(tài)學(xué)習(xí)等模型算法，解決數(shù)據(jù)不足、學(xué)科貼合度不高的問(wèn)題。

錢煒祺提醒，大語(yǔ)言模型、計(jì)算機(jī)視覺和科學(xué)大模型并不是像“煙囪”一樣各自獨(dú)立發(fā)展的。它們相互之間已實(shí)現(xiàn)關(guān)聯(lián)、調(diào)用、融合，可以共同解決特定場(chǎng)景、特定領(lǐng)域問(wèn)題。因此，科學(xué)大模型的研發(fā)和推廣并不局限于自身，人們應(yīng)該關(guān)注大模型技術(shù)的整體發(fā)展。

錢煒祺預(yù)測(cè)，隨著數(shù)據(jù)不斷豐富、算力提升、算法改進(jìn)，空氣動(dòng)力學(xué)領(lǐng)域大模型將改變信息分發(fā)和獲取模式，革新數(shù)據(jù)和知識(shí)生產(chǎn)模式，實(shí)現(xiàn)全自動(dòng)交互完成任務(wù)目標(biāo)，成為科研工作的“加速器”。

許錦波說(shuō)，除了技術(shù)本身，大模型的發(fā)展也和人才和制度息息相關(guān)。

許錦波認(rèn)為，培養(yǎng)兼具科研和產(chǎn)業(yè)能力的創(chuàng)新者，關(guān)鍵在于緊密貼合產(chǎn)業(yè)實(shí)際需求，全力促成跨領(lǐng)域協(xié)同創(chuàng)新。同時(shí)，一支匯聚多學(xué)科知識(shí)背景、兼具產(chǎn)業(yè)實(shí)操本領(lǐng)與科研攻堅(jiān)實(shí)力的復(fù)合型人才團(tuán)隊(duì)，是持續(xù)創(chuàng)新的源泉。

“我們?cè)谧龅氖虑榧刃枰畯?到1’研究和解決科學(xué)問(wèn)題，也需要將技術(shù)落地于產(chǎn)業(yè)實(shí)踐。我們需要懂計(jì)算、懂人工智能、懂生物科學(xué)的復(fù)合型人才?！痹S錦波表示。

面對(duì)人才瓶頸，胡曉光認(rèn)為，打造開放的科研生態(tài)，降低大模型應(yīng)用門檻是關(guān)鍵。

百度發(fā)起的“飛槳AI for Science”共創(chuàng)計(jì)劃，通過(guò)提供算力支持、資源與服務(wù)，共同推進(jìn)AI技術(shù)在科學(xué)計(jì)算領(lǐng)域的創(chuàng)新與發(fā)展。截至2024年末，“飛槳”產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開源開放平臺(tái)已在服務(wù)43萬(wàn)企事業(yè)單位，創(chuàng)建模型超100萬(wàn)個(gè)。

胡曉光介紹，“飛槳”通過(guò)由參與單位和個(gè)人共同建設(shè)模型庫(kù)和場(chǎng)景范例、提供免費(fèi)算力、為優(yōu)秀科研方案和重點(diǎn)項(xiàng)目提供框架、模型資金支持、開發(fā)套件以及推出全方位課程資源技術(shù)合作支持等方式，和科研人員一起開展科研工作、研制前沿模型、建設(shè)場(chǎng)景范例、取得科研成果?！翱茖W(xué)大模型的開發(fā)、落地和推廣，需要大量的跨領(lǐng)域科研人才，并且實(shí)現(xiàn)人工智能與傳統(tǒng)科學(xué)計(jì)算工具鏈的協(xié)同。這需要我們搭建穩(wěn)定、優(yōu)質(zhì)的科研生態(tài)，把資源和機(jī)會(huì)凝聚起來(lái)，共同打破目前遇到的瓶頸?！焙鷷怨庹f(shuō)。

（采寫：記者孫明源華凌徐慶群策劃：趙英淑滕繼濮）

延伸閱讀

為大模型研發(fā)營(yíng)造創(chuàng)新生態(tài)

如何營(yíng)造科學(xué)大模型創(chuàng)新生態(tài)，以確保高效的科研產(chǎn)出？

“不以論文論英雄。”智源研究院代表性的創(chuàng)新做法之一，就是摒棄了“以論文論英雄”的傳統(tǒng)考核標(biāo)準(zhǔn)，轉(zhuǎn)而以科研成果在學(xué)界和產(chǎn)業(yè)界產(chǎn)生的實(shí)際影響作為評(píng)判依據(jù)。

由科技部和北京市支持創(chuàng)辦的北京智源人工智能研究院（以下簡(jiǎn)稱“智源研究院”）成立于2018年，是我國(guó)最早開始做大模型研發(fā)的科研機(jī)構(gòu)之一?！霸诒本┦械闹С窒拢覀冞€突破了傳統(tǒng)的申請(qǐng)—答辯制度，采取了包干制，由科研人員自己決定做什么項(xiàng)目。”王仲遠(yuǎn)介紹。

當(dāng)前，智源研究院正在積極探索新型研發(fā)機(jī)構(gòu)建設(shè)模式創(chuàng)新，建立了“青年人才挑大梁”的人才評(píng)價(jià)及培養(yǎng)機(jī)制，打造“代表作文化”，通過(guò)“小同行評(píng)議”，遴選擁有學(xué)術(shù)代表作的一流人才；在“有組織科研”機(jī)制創(chuàng)新上，探索“集中力量辦大事”的跨機(jī)構(gòu)、跨領(lǐng)域、大團(tuán)隊(duì)的新型科研組織機(jī)制。

“此外，我們很重要的一個(gè)理念，就是接納失敗?！蓖踔龠h(yuǎn)說(shuō)，“創(chuàng)新必然面對(duì)風(fēng)險(xiǎn)，失敗也有重要的價(jià)值。我們會(huì)組織專門的顧問(wèn)委員會(huì)、技術(shù)委員會(huì)去評(píng)估研究成果，分析失敗的工作是否還有進(jìn)行的可能，以及給了我們哪些技術(shù)路線上的啟示?！?/p>

智源研究院不僅構(gòu)建起一套開放的內(nèi)部生態(tài)，也打造了一套面向整個(gè)科研系統(tǒng)的外部生態(tài)。王仲遠(yuǎn)介紹，智源研究院的許多數(shù)據(jù)、模型都是開源的。同時(shí)，智源研究院積極搭建學(xué)術(shù)界和企業(yè)界的橋梁，并努力邀請(qǐng)全世界科學(xué)家參與到中國(guó)的人工智能科學(xué)生態(tài)當(dāng)中，這些做法不僅在我國(guó)，在世界范圍來(lái)看都是比較罕見的。

除了開放數(shù)據(jù)集和大模型，智源研究院還在持續(xù)完善覆蓋模型、數(shù)據(jù)、算法、評(píng)測(cè)、系統(tǒng)的大模型全棧開源技術(shù)基座，并打造面向大模型、支持多種異構(gòu)算力的智算集群軟件棧，為整個(gè)行業(yè)提供支持。

王仲遠(yuǎn)認(rèn)為，科學(xué)研究的探索之路往往曲折而漫長(zhǎng)，作為學(xué)者的后盾，研究機(jī)構(gòu)需要給予自由度，以鼓勵(lì)創(chuàng)新和促進(jìn)進(jìn)步，但同時(shí)也需要進(jìn)行一定的引導(dǎo)，避免“迷失方向”。

“我們要做的就是通過(guò)協(xié)作，打造用于未來(lái)的研究平臺(tái)，集結(jié)最優(yōu)秀的同行，專注可能產(chǎn)生原始創(chuàng)新與長(zhǎng)期影響的領(lǐng)域，讓創(chuàng)新系統(tǒng)更高效地運(yùn)行，通過(guò)我們的努力讓中國(guó)出現(xiàn)突破性成果的概率增加?！蓖踔龠h(yuǎn)說(shuō)。

（記者孫明源華凌）

【未經(jīng)授權(quán)，嚴(yán)禁轉(zhuǎn)載！聯(lián)系電話028-86968276】

打開川觀新聞，閱讀體驗(yàn)更佳

精彩評(píng)論 0

查看更多評(píng)論

我要評(píng)論

去APP中熱議吧

去APP查看

關(guān)于我們 \| 廣告業(yè)務(wù) \| 聯(lián)系我們
四川日?qǐng)?bào)社版權(quán)所有未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像 Copyright ?2011-2019 SICHUAN DAILY All rights reserved. 四川日?qǐng)?bào)報(bào)業(yè)集團(tuán) 四川日?qǐng)?bào)網(wǎng) 蜀ICP備12028253號(hào)-2
川觀新聞跟帖評(píng)論自律管理承諾書

科學(xué)大模型:“上線”之路還有多遠(yuǎn)

精彩評(píng)論 0

精彩評(píng)論

小觀推薦

關(guān)注我們