前不久,世界數據組織在北京成立,這是全球首個(gè)旨在推動(dòng)數據發(fā)展與治理實(shí)踐的專(zhuān)業(yè)性國際組織。數據作為人工智能發(fā)展的關(guān)鍵要素,如同燃料之于發(fā)動(dòng)機,其供給能力的高低直接決定人工智能的發(fā)展速度與質(zhì)量。隨著(zhù)人工智能產(chǎn)業(yè)范式從“模型為王”轉向“數據為王”,數據的供給能力,不僅關(guān)乎人工智能產(chǎn)業(yè)發(fā)展,更決定著(zhù)國家在未來(lái)競爭格局中的地位。如何充分釋放數據潛能、驅動(dòng)數字經(jīng)濟更快發(fā)展,值得關(guān)注。
近年來(lái),我國在培育數據要素市場(chǎng)方面取得顯著(zhù)成效,數據資源規模優(yōu)勢持續擴大,不斷轉化為產(chǎn)業(yè)優(yōu)勢。但中文語(yǔ)料數據供給不足,正成為我國人工智能應用創(chuàng )新的重要問(wèn)題。中文語(yǔ)料供給不足,不僅會(huì )導致語(yǔ)義偏差風(fēng)險制約AI發(fā)展效能,還可能導致潛在的文化誤讀與意識形態(tài)風(fēng)險。隨著(zhù)單邊主義、保護主義抬頭,我國人工智能創(chuàng )新發(fā)展可能面臨更加嚴峻的數據“瘸腿”困境?!笆逦濉睍r(shí)期,強化面向人工智能的數據高效供給,有助于充分發(fā)揮數據資源規模優(yōu)勢,搶占未來(lái)科技發(fā)展制高點(diǎn)。
擴容數據供給“蓄水池”。構建數據高效供給體系的核心在于持續擴大數據規模、豐富數據類(lèi)型。當前,我國數據供給存在明顯的結構性失衡,互聯(lián)網(wǎng)娛樂(lè )數據相對過(guò)剩,產(chǎn)業(yè)應用、科技創(chuàng )新所需的高價(jià)值數據嚴重不足。需進(jìn)一步推動(dòng)公共數據開(kāi)放與授權運營(yíng),加強物聯(lián)網(wǎng)等數據接口開(kāi)放,激發(fā)行業(yè)數據共享匯聚,促進(jìn)社會(huì )數據收集,拓展數據供給的廣度與深度。
筑牢數據質(zhì)量“壓艙石”。數據質(zhì)量是價(jià)值實(shí)現的前提,高質(zhì)量的數據不僅要求準確性、完整性與合規性,更強調場(chǎng)景適配性和知識密度。數據加工能力不足導致大量數據時(shí)效性較差、價(jià)值被低估、難以挖掘復用,海量數據“出生”即“死亡”。提升數據加工能力,保障數據供給質(zhì)量與適用性,仍需進(jìn)行數據資源規劃管理,建立數據標注規范、數據集質(zhì)量評估標準。
打通數據流通“快車(chē)道”。當前,大量數據長(cháng)期被“鎖”在政府、高校、科研機構和企業(yè)各自的數據壁壘里。有報告顯示,2023年數據交易中需求方是供給方的1.75倍,數據產(chǎn)品成交率僅為17.9%。提升數據流通效率,消除“數據孤島”與流通堵點(diǎn),要著(zhù)眼于技術(shù)創(chuàng )新和制度創(chuàng )新“雙輪驅動(dòng)”。一方面,隱私計算技術(shù)為消解數據安全與流通矛盾提供了全新思路,可信數據空間成為數據資源規?;魍ɡ玫男履J叫侣窂?,區塊鏈技術(shù)為數據確權和流通提供可信保障。另一方面,制度創(chuàng )新則為數據流通“松綁提速”。
培育數據供給“新生態(tài)”。充分發(fā)揮人工智能威力,要對接應用場(chǎng)景中大模型的實(shí)際需求,綜合利用政府和社會(huì )各方資源,打通數據采集、開(kāi)發(fā)、流通和利用鏈條,構建共享共創(chuàng )共贏(yíng)的合作生態(tài)。推動(dòng)數據標注提質(zhì)增效。數據集開(kāi)發(fā)周期長(cháng)、成本高,可通過(guò)創(chuàng )新技術(shù)手段,優(yōu)化資源配置,實(shí)現數據供給的集約高效。建立行業(yè)數據聯(lián)盟,實(shí)現數據共建復用。發(fā)揮市場(chǎng)導向作用,制定完善數據集定價(jià)和收益分配機制,創(chuàng )新數據開(kāi)發(fā)利用方式,優(yōu)化數據集運營(yíng)模式,提升數據投入產(chǎn)出比,凝聚社會(huì )各方數據供給合力,共同培育數據高效供給生態(tài)。(本文來(lái)源:經(jīng)濟日報 作者:劉彬芳)
(責任編輯:馮虎)