1月9日,在中國網(wǎng)絡(luò)空間安全協(xié)會人工智能安全治理專委會工作年會上,中文互聯(lián)網(wǎng)語料資源平臺正式面向社會發(fā)布。
在中央網(wǎng)信辦指導(dǎo)下,中國網(wǎng)絡(luò)空間安全協(xié)會會同國家互聯(lián)網(wǎng)應(yīng)急中心,協(xié)同人工智能產(chǎn)、學(xué)、研、用單位,共同建設(shè)中文互聯(lián)網(wǎng)語料資源平臺,面向社會提供中文互聯(lián)網(wǎng)基礎(chǔ)語料展示下載服務(wù)。平臺支持行業(yè)領(lǐng)域、內(nèi)容模態(tài)、體量規(guī)模等多種標(biāo)簽分類,便于用戶下載與使用。
目前平臺共入駐27個語料數(shù)據(jù)集,數(shù)據(jù)總量約2.7T,主要分三類:一是中國網(wǎng)絡(luò)空間安全協(xié)會會同國家互聯(lián)網(wǎng)應(yīng)急中心等建設(shè)的中文互聯(lián)網(wǎng)基礎(chǔ)語料;二是人民網(wǎng)、北京智源研究院、上海人工智能實驗室等單位共享的互聯(lián)網(wǎng)語料;三是中國網(wǎng)絡(luò)空間研究院、中國國家版本館、中國大百科全書出版社、中國社會科學(xué)院圖書館等單位貢獻(xiàn)的優(yōu)質(zhì)中文基礎(chǔ)語料樣本。登錄中國網(wǎng)絡(luò)空間安全協(xié)會官網(wǎng),即可在首頁注冊使用平臺。
下一步,平臺將依托中國網(wǎng)絡(luò)空間安全協(xié)會人工智能安全治理專委會建立的語料共建共享機(jī)制,持續(xù)吸納優(yōu)質(zhì)中文互聯(lián)網(wǎng)語料進(jìn)駐,探索開展數(shù)據(jù)來源合規(guī)評估、質(zhì)量評價、安全檢測等服務(wù),構(gòu)建健康可持續(xù)的中文互聯(lián)網(wǎng)語料開發(fā)利用生態(tài),促進(jìn)和支撐大模型產(chǎn)業(yè)發(fā)展。
轉(zhuǎn)載請注明來源:“網(wǎng)信中國”微信公眾號
審核:陳舞陽
編輯:王林晨
校對:呂燕芳