川觀新聞記者 董曉尚
2025年4月27日,四川日報(bào)報(bào)業(yè)集團(tuán)參編的《AI大模型語料庫安全技術(shù)指南》團(tuán)體標(biāo)準(zhǔn)正式發(fā)布,標(biāo)準(zhǔn)由17家單位聯(lián)合起草,四川日報(bào)報(bào)業(yè)集團(tuán)是其中唯一媒體單位。標(biāo)準(zhǔn)由中國國際科技促進(jìn)會審核通過,是大模型語料庫安全領(lǐng)域重要的技術(shù)規(guī)范。
隨著人工智能系統(tǒng),特別是大語言模型成為社會各個方面不可或缺的一部分,以一個全面的大模型語料庫安全技術(shù)標(biāo)準(zhǔn)來解決它們的安全挑戰(zhàn)變得至關(guān)重要?!禔I大模型語料庫安全技術(shù)指南》團(tuán)體標(biāo)準(zhǔn)給出了AI大模型語料收集、語料處理、數(shù)據(jù)評估、安全評估等指導(dǎo)。標(biāo)準(zhǔn)適用于AI大模型的軟件產(chǎn)品提供者,語料收集平臺、語料處理平臺語料評估等。
2024年起,川觀新聞就啟動建設(shè)“若水”四川省情語料庫,依托大模型等相關(guān)技術(shù),建設(shè)省情高質(zhì)量數(shù)據(jù)集及數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)化服務(wù)體系。2025年4月22日,四川日報(bào)又和多家單位共同啟動建設(shè)格?;ú氐卣Z料庫。將對已整理的超200億字符的藏文資料、30000多小時(shí)的音視頻資料進(jìn)行訓(xùn)練,形成千萬條高質(zhì)量多模態(tài)藏語語料。通過數(shù)據(jù)清洗、知識提取等智能處理,形成藏語核心語料及細(xì)分領(lǐng)域知識庫,為藏語研究、內(nèi)容生產(chǎn)與傳播提供支撐。
基于《AI大模型語料庫安全技術(shù)指南》團(tuán)體標(biāo)準(zhǔn),“若水”四川省情語料庫和格?;ú氐卣Z料庫將進(jìn)一步強(qiáng)化語料安全和應(yīng)用安全,為媒體領(lǐng)域的大模型相關(guān)應(yīng)用及智庫服務(wù)提供強(qiáng)力支撐,也為其他人工智能大模型提供安全語料支撐、知識增強(qiáng)服務(wù),助力各類機(jī)構(gòu)研發(fā)的人工智能系統(tǒng)提升意識形態(tài)安全水平,實(shí)現(xiàn)主流價(jià)值觀對齊。
【未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載!聯(lián)系電話028-86968276】