川觀智庫研究員 徐也晴
數(shù)據(jù)作為數(shù)字經(jīng)濟時代的“新石油”,其戰(zhàn)略地位與重要性日益凸顯。日前,中國工程院院士鄔賀銓公開演講時提到,2025年將成為我國數(shù)據(jù)資源建設(shè)的元年。
據(jù)鄔賀銓介紹,目前國內(nèi)數(shù)據(jù)資源呈現(xiàn)三個特點。一是中文開源語料庫不足,如果過度依賴國外語料庫會有價值觀對齊的風險。而中國工業(yè)門類全、規(guī)模大,工業(yè)數(shù)據(jù)全球最多,但由于企業(yè)間不共享,導(dǎo)致68%的工業(yè)數(shù)據(jù)未被利用;二是原生數(shù)據(jù)的獲得成本高,用AI自身迭代衍生雖然可合成數(shù)據(jù),但這種操作可能會導(dǎo)致模型崩潰,因此訓(xùn)練數(shù)據(jù)中需要有10-20%的原始數(shù)據(jù);三是行業(yè)數(shù)據(jù)清洗標注需要較高專業(yè)知識,可利用AI來生成、標注和編目,但需嚴格管控質(zhì)量。
過去一年,數(shù)據(jù)標注行業(yè)頗受重視。4月1日,全國數(shù)據(jù)工作會議提出“探索建設(shè)數(shù)據(jù)標注基地”;5月24日,國家數(shù)據(jù)局發(fā)布了承擔數(shù)據(jù)標注基地建設(shè)任務(wù)的城市名單,其中包括四川省成都市;近日,國家發(fā)展改革委等六部門聯(lián)合印發(fā)《關(guān)于促進數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,提到要強化數(shù)據(jù)標注、數(shù)據(jù)合成等核心技術(shù)攻關(guān)。
除此之外,臨近年底,國內(nèi)多家智庫機構(gòu)也強調(diào)數(shù)據(jù)標注的重要性。比如,國內(nèi)科技產(chǎn)業(yè)智庫甲子光年提到,數(shù)據(jù)標注可能會成為建設(shè)高質(zhì)量中文數(shù)據(jù)集的重要手段;中國信息通信研究院提到,當前,新一代數(shù)據(jù)標注成為高質(zhì)量數(shù)據(jù)供給的關(guān)鍵。
具體而言,新一代數(shù)據(jù)標注具備高技術(shù)含量、高知識密度和高價值應(yīng)用的“三高”特性。高技術(shù)含量指的是智能化標注、人機協(xié)同標注、合成數(shù)據(jù)技術(shù)等將大幅提高標注效率和準確率,從而降低成本;高知識密度指的是從業(yè)者將出現(xiàn)高學(xué)歷背景和多學(xué)科融合的特點;高價值應(yīng)用指的是數(shù)據(jù)標注整體趨向技術(shù)服務(wù)多元化、領(lǐng)域場景專業(yè)化、質(zhì)量高標準化等屬性。
2025年,數(shù)據(jù)標注行業(yè)會面臨怎樣的機遇?中國信息通信研究院認為,在技術(shù)層面,基于大模型的智能化標注落地使用,人機協(xié)同的輕量化標注技術(shù)突破,細分行業(yè)領(lǐng)域標注需求增多;在產(chǎn)業(yè)層面,行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)元年帶來海量標注需求,具身智能數(shù)據(jù)和邏輯推理數(shù)據(jù)成為行業(yè)增長點,新一代數(shù)據(jù)標注產(chǎn)業(yè)集群加速形成。
【未經(jīng)授權(quán),嚴禁轉(zhuǎn)載!聯(lián)系電話028-86968276】