發(fā)布時間:2026-06-10
瀏覽次數:65次
6月8日,國家數據局關于印發(fā)《關于推進行業(yè)高質量數據集建設行動的實施方案》的通知(國數科基〔2026〕25號)。
其中明確,聚焦行業(yè)領域推進高質量數據集建設。聚焦科學研究、工業(yè)制造、農業(yè)農村、智慧能源、交通運輸、金融服務、醫(yī)療衛(wèi)生、教育教學、電子商務、人力資源、文化旅游、應急管理、氣象服務、綠色低碳、公共安全、城市治理、住房建設、自然資源、社會信用等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創(chuàng)新領域,加快推進行業(yè)高質量數據集建設。
原文如下:
國家數據局關于印發(fā)《關于推進行業(yè)高質量數據集建設行動的實施方案》的通知
國數科基〔2026〕25號
各省、自治區(qū)、直轄市及新疆生產建設兵團數據管理部門:
現將《關于推進行業(yè)高質量數據集建設行動的實施方案》印發(fā)給你們,請認真組織實施,加快推進相關工作。
國家數據局
2026年6月3日
關于推進行業(yè)高質量數據集建設行動的實施方案
行業(yè)高質量數據集是經過采集、加工等數據處理,可直接用于開發(fā)和訓練人工智能模型,能有效提升模型性能的行業(yè)數據的集合,包含行業(yè)通識和行業(yè)專識數據集。行業(yè)高質量數據集是推動“人工智能+”賦能千行百業(yè)、實現產業(yè)落地的基礎性、關鍵性資源。為落實國民經濟和社會發(fā)展“十五五”規(guī)劃《綱要》,深入實施“人工智能+”行動,推動行業(yè)高質量數據集建設推廣與“人工智能+”同頻共振、互促共進,強化數據賦能人工智能創(chuàng)新發(fā)展,制定本方案。
一、總體要求
以習近平新時代中國特色社會主義思想為指導,深入貫徹黨的二十大和二十屆歷次全會精神,全面落實“人工智能+”行動,主動順應人工智能發(fā)展范式躍遷,按照“需求牽引、急用先行、應用驗證、安全保障”原則,聚焦國民經濟發(fā)展重點行業(yè)和戰(zhàn)略性新興產業(yè),圍繞行業(yè)高質量數據集供給、流通、應用等關鍵環(huán)節(jié),部署強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六個專項行動,形成“場景牽引數據、數據驅動模型、模型賦能應用、應用創(chuàng)造價值”的“數據飛輪”,加快構建數據要素與人工智能協同演進的共生生態(tài)。
到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業(yè)高質量數據集,打造一批數據驅動人工智能創(chuàng)新發(fā)展的典型應用場景,培育一批具備領先優(yōu)勢的創(chuàng)新型數據企業(yè)和專業(yè)人才,形成一批行業(yè)高質量數據集建設工具和標準。數據從供給到價值釋放的良性循環(huán)基本形成,數據賦能人工智能創(chuàng)新發(fā)展的作用更加凸顯,數據產業(yè)與人工智能深度融合,持續(xù)催生智能經濟新增長點。
二、實施強基擴容行動
順應人工智能加速向行業(yè)滲透,從對話向多模態(tài)生成、決策執(zhí)行、具身智能、物理交互等范式躍遷的趨勢,拓寬數據供給渠道,豐富數據供給類型,加快建設行業(yè)高質量數據集,為人工智能發(fā)展和應用提供充足“燃料”。
(一)聚焦行業(yè)領域推進高質量數據集建設。聚焦科學研究、工業(yè)制造、農業(yè)農村、智慧能源、交通運輸、金融服務、醫(yī)療衛(wèi)生、教育教學、電子商務、人力資源、文化旅游、應急管理、氣象服務、綠色低碳、公共安全、城市治理、住房建設、自然資源、社會信用等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創(chuàng)新領域,加快推進行業(yè)高質量數據集建設。
(二)夯實行業(yè)高質量數據集建設基礎路徑。梳理行業(yè)數據資源底數和應用場景,建立數據資源清單和數據集需求清單。以應用為牽引,持續(xù)推進行業(yè)高質量數據集建設先行先試,加快形成一批可復制、可推廣的數據驅動型示范場景。強化鏈主單位牽引帶動作用,支持鏈主單位以聯合體等形式推動產業(yè)鏈上下游協同共建和資源整合,持續(xù)擴大行業(yè)高質量數據集供給規(guī)模,鼓勵鏈主單位面向行業(yè)開放數據集并提供數據服務,賦能產業(yè)鏈上下游中小企業(yè)。鼓勵高等院校、科研院所、行業(yè)協會、數據流通服務機構、第三方專業(yè)服務機構等各類主體參與行業(yè)高質量數據集建設。加大公共數據資源開發(fā)利用力度,推動公共數據與行業(yè)數據融合利用,建設一批高質量數據集。
(三)面向人工智能應用需求豐富行業(yè)高質量數據集建設形態(tài)。持續(xù)推進文本、代碼、圖像、音頻、視頻、點云、時序數據、科學數據等多模態(tài)高質量數據集建設,賦能人工智能預訓練、指令微調、強化學習、測評等各階段。加強知識庫、知識圖譜、本體等數據集建設,加快復雜任務規(guī)劃、長程推理、人機交互、決策執(zhí)行等數據集建設,賦能智能體等新型智能應用形態(tài)。加快重點場景物理交互、環(huán)境感知、運動控制等真機交互數據集建設,積極應用仿真模擬與合成技術擴大數據供給,賦能具身智能發(fā)展。積極面向世界模型等前沿方向,推進數據集建設。
(四)強化與數據基礎設施建設有機聯動。鼓勵依托國家數據基礎設施,充分運用隱私保護計算、可信數據空間等能力,開展數據集安全存儲、可信流通、高效應用,推動數據集從分散持有向集約化、標準化供給轉變。鼓勵探索建設支撐大規(guī)模、多模態(tài)數據集的數據基礎設施存力中心。
三、實施標注攻堅行動
數據標注是將知識和經驗注入到訓練數據的過程,是行業(yè)高質量數據集建設不可或缺的關鍵環(huán)節(jié)。引導數據標注從“以人為主”向“人機協同、專家深度參與”的多層次標注模式轉變,推動數據標注向專業(yè)化、智能化躍升。
(五)推動數據標注轉型升級。加強數據標注領域科技創(chuàng)新,強化自動化工具和平臺的研發(fā)與應用,發(fā)展“模型預標注+人工校準”“人工標注+模型檢驗”“模型預標注+模型檢驗”等智能化標注服務,全面提升數據標注水平。發(fā)展專家型數據標注服務,建立行業(yè)專家認證機制,推動專家深度參與指令微調、強化學習等階段所需的專業(yè)知識標注,生產領域知識、邏輯推理等高質量數據集,提高數據集的知識密度與專業(yè)價值。
(六)持續(xù)推動數據標注先行先試。指導首批七個承擔數據標注先行先試任務的城市,持續(xù)做強做深數據標注產業(yè)。面向創(chuàng)新能力強、發(fā)展基礎好、產業(yè)特色優(yōu)的地區(qū),梯次布局一批數據標注創(chuàng)新試驗區(qū)。有序引導具備條件的地區(qū)因地制宜開展試驗區(qū)建設,促進數據標注產業(yè)鏈上下游緊密協同,形成產業(yè)集聚效應。培育一批數據標注龍頭企業(yè)、獨角獸企業(yè)、瞪羚企業(yè),壯大數據標注產業(yè)。
(七)擴大數據標注人才供給。支持有條件的院校增設數據標注相關課程,依托產教融合、校企協同等方式,培育具備專業(yè)知識的數據標注人才。鼓勵開展數據標注職業(yè)技能等級認定,強化繼續(xù)教育與在職培訓,暢通人才發(fā)展通道。完善分層分類人才評價體系,建設專職與兼職相結合的專業(yè)標注人才隊伍。鼓勵高校畢業(yè)生等群體參與標注工作,通過靈活就業(yè)、項目協作、多元崗位供給等方式,擴展就業(yè)渠道。
四、實施提質增效行動
推動構建符合結構完整性、內容多樣性、標注準確性、模型適配性等質量標準、滿足人工智能就緒(AI-Ready)的高質量數據集,降低訓練推理成本,有效提升模型性能。
(八)提升行業(yè)高質量數據集建設質效。加強數據清洗、增強、標注、對齊、質檢等關鍵技術攻關和全過程自動化工具研發(fā)應用,支撐高效率、高標準構建行業(yè)高質量數據集。針對行業(yè)特定應用場景,鼓勵運用數據智能過濾與配比等技術,構建更精、更強的高知識密度數據集,降低訓練推理成本。發(fā)揮數據合成在數據集建設中的積極作用,利用模型、仿真系統等生成的數據,解決稀缺場景數據集構造難、真實場景數據采集成本高等問題。
(九)推動高質量數據集標準體系建設和應用落地。加快推進高質量數據集格式、類型、標注、質量測評等相關國家標準研制、應用驗證和貫標,健全高質量數據集標準體系。鼓勵各行業(yè)、各地方與國家標準聯動,推動重點行業(yè)領域高質量數據集標準研制。加強在產業(yè)政策、政府采購、招投標中引用相關標準,引導產業(yè)執(zhí)行高水平標準,用好檢驗檢測等手段推動標準實施,促進高質量數據集規(guī)范化建設。
(十)強化高質量數據集質量測評和結果互認。持續(xù)完善“數據質量驗證+模型應用反饋”的測評方法,加快建設覆蓋多行業(yè)、多場景、多模態(tài)的測評數據集,有效評估高質量數據集應用效果。發(fā)起高質量數據集測評聯合行動倡議,推動相關單位按照標準,采用統一測評方案和工具開展測評和封裝工作,實現“一次測評、全國互認”。
五、實施應用賦能行動
堅持行業(yè)高質量數據集建設與實際應用深度融合,以模引數、用數賦模,促進高質量數據集建設與“數據要素×”“人工智能+”同頻共振,全面賦能產業(yè)數智化轉型。
(十一)打造“數據飛輪”應用閉環(huán)。以模型應用牽引數據供給、以數據賦能模型迭代,推動形成“場景—數據—模型”協同發(fā)展的良性循環(huán)。發(fā)揮“人工智能+”場景牽引作用,推動數據供給和場景的精準匹配,以用促建,以實際需求吸引更多數據資源匯聚,推動行業(yè)高質量數據集有效供給和持續(xù)優(yōu)化。結合“數據要素×”行動,深化行業(yè)高質量數據集建設,以建促用,充分利用模型應用產生的動態(tài)交互數據等,驅動行業(yè)模型能力持續(xù)提升。
(十二)打造行業(yè)應用標桿和典型案例。著力打造集“數據集生產加工和流通利用、支撐模型訓練應用”于一體的數據賦能工場,打造一批行業(yè)標桿,加速人工智能應用落地。打造一批數據賦能智能體解決實際問題的典型案例,推動高質量數據集規(guī)?;瘧?。
(十三)繁榮數據集協同發(fā)展生態(tài)。加強統籌協調,強化部門聯動,分行業(yè)分領域有序推進高質量數據集建設和應用。搭建“政產學研用金”多方交流平臺,形成共建共享、互利共贏的產業(yè)生態(tài),破解“數據孤島”“數據煙囪”。常態(tài)化舉辦供需對接活動,提升供需匹配效率,促進實質性合作落地。組織遴選行業(yè)高質量數據集建設和應用典型案例,發(fā)揮行業(yè)示范引領作用。支持舉辦行業(yè)高質量數據集創(chuàng)新賽事活動,以賽促建、以賽促用。深化國際交流合作,建立健全數據集跨境安全有序流動機制,推動跨境流動規(guī)則互認,鼓勵行業(yè)高質量數據集建設主體積極參與全球數據生態(tài)建設。
六、實施管理服務行動
加強數據集管理,完善數據倫理和治理機制,推動落實數據權益相關制度,推進數據集建設體系更加規(guī)范有序。
(十四)構建數據集全生命周期的管理體系。加強覆蓋數據采集、清洗、加工、標注、質檢、測評、迭代、審計等全生命周期的數據集管理服務能力建設,依托數據基礎設施,強化隱私保護計算、區(qū)塊鏈等技術應用,確保數據可管、可控、可追溯。建設“物理分散、邏輯集中”的國家數據集管理服務系統,實現數據集目錄、供需等信息互聯互通。支持各地方、行業(yè)依托國家系統設置專區(qū),支持已有系統與國家系統對接。
(十五)探索面向人工智能發(fā)展的數據相關制度。落實數據持有權、使用權、經營權三權分置制度。研究合成數據等新情況新問題。兼顧產權保護與創(chuàng)新發(fā)展需求,完善人工智能訓練階段數據使用規(guī)則,推動版權作品數據等有序用于模型訓練,完善數據授權使用機制和收益分配規(guī)則,打造權責清晰、合規(guī)包容的制度環(huán)境。
(十六)堅持倫理先行與公平普惠。研究探索高質量數據集倫理道德規(guī)范,堅持有益社會的價值導向,嚴禁非法收集或使用敏感數據。防范數據集建設全流程產生數據偏見與歧視,充分考慮社會各界多元需求,最大限度確保數據集建設成果惠及全民。
七、實施價值釋放行動
發(fā)揮數據集的應用價值,以行業(yè)高質量數據集賦能人工智能發(fā)展。釋放數據要素價值,推動數據集商業(yè)化、資產化,培育為數據付費的市場共識,探索以詞元(Token)為基礎的價值體系。
(十七)發(fā)揮行業(yè)高質量數據集的應用價值。建立數據集和模型需求對接機制,推動行業(yè)高質量數據集和模型精準適配,提高模型質量和效率,深度賦能行業(yè)發(fā)展。推動行業(yè)高質量數據集跨行業(yè)、跨領域、跨場景融合利用,鼓勵“以數換數”“數模互換”“數據托管”“數算一體”等多種應用模式。積極參與開源社區(qū)建設,鼓勵中介機構、公益機構將基礎性、公益性數據集作為公共產品向社會公開,激發(fā)用數活力。
(十八)創(chuàng)新行業(yè)高質量數據集商業(yè)模式。完善數據集長效運營機制,鼓勵數據集在數據交易所(中心)等數據流通服務機構掛牌交易,發(fā)展“訂閱模式”“商場模式”“定制模式”等多元服務形態(tài),推動商業(yè)模式從基礎數據包銷售向API調用、模型化解決方案及全棧服務梯次躍升。探索詞元交易等新型交易模式,構建以詞元為基礎,可量化、可定價的數據價值體系。
(十九)探索行業(yè)高質量數據集資產化創(chuàng)新路徑。鼓勵有條件的單位率先探索開展數據集資產盤點、登記、評估等試點工作,為數據資產化積累可復制、可推廣的經驗。鼓勵探索數據集質押融資、作價入股、資產證券化、數據信托、數據保險等多元資產化創(chuàng)新模式,拓寬數據價值轉化渠道。
(二十)培育為高質量數據付費的市場共識。建立健全市場化利益分配機制,確保數據供給、加工、流通、應用等各環(huán)節(jié)主體均能獲得市場化價值回報,共享數據紅利。鼓勵數據需求方通過購買、合作等形式加大投入,充分發(fā)揮政府部門、國有企業(yè)、模型企業(yè)等單位的示范引領作用,推動數據采買納入預算編制,率先開展數據采購實踐,帶動形成數據有償使用市場共識,構建健康可持續(xù)的數據市場生態(tài)。
八、保障措施
國家數據局發(fā)揮統籌協調作用,會同有關部門協同推進高質量數據集建設與應用,構建“部門協同、領域聯動”的工作格局。各地要落實屬地管理責任,加大組織實施力度,避免一哄而上,防止同質化、低水平重復建設,結合實際制定配套措施,統籌安排數據產品和服務采購經費,用于支持行業(yè)高質量數據集建設。支持各類主體以應用為牽引,積極開展和參與行業(yè)高質量數據集建設。引導金融機構、耐心資本、產業(yè)基金等,加大對行業(yè)高質量數據集建設的投資力度,鼓勵地方設立專項資金,探索多元化、多渠道投入機制。鼓勵在依法依規(guī)、風險可控前提下開展創(chuàng)新探索。持續(xù)跟蹤行業(yè)高質量數據集建設工作,完善監(jiān)測指標,評估建設和應用成效,階段性總結經驗。強化安全保障,落實數據安全相關法律法規(guī)要求,建立全流程安全治理機制,防范數據投毒與污染、數據泄露等安全風險,守牢數據安全底線。