http://kadhoai.com.cn 2026-04-25 04:22:12 來源:能源工業互聯網聯合創新中心
高質量數據是提升模型應用效能、增強模型泛化能力、保bao障zhang模mo型xing穩wen定ding可ke信xin的de關guan鍵jian基ji礎chu,是shi發fa展zhan以yi大da模mo型xing為wei代dai表biao的de人ren工gong智zhi能neng技ji術shu的de重zhong要yao支zhi撐cheng。為wei加jia速su新xin質zhi生sheng產chan力li賦fu能neng新xin型xing工gong業ye化hua,推tui動dong人ren工gong智zhi能neng大da模mo型xing技ji術shu進jin步bu,更好地發揮數據要素價值,中國工業互聯網研究院聯合香港科技大學,在進行深入調研和充分交流的基礎上,共同構建麵向製造業場景的人工智能語料數據質量評估體係。
(一)評價體係
針對工業語料的特點,在通用數據質量評價標準的6個指標的基礎上(GB/T 36344-2018),提出專業性、通用性、稠密性、均衡性、安全合規性、全麵性、可回溯性、可解釋性等8個工業語料指標,形成麵向工業語料的質量評價體係。

專業性等新增工業語料測評方法如下:zhuanyexingzhishujuyunhanmianxiangtedinggongyexingyelingyudeyouxiaoxinxi,keyongyujiejuezhuanyelingyuwenti,jutibiaoxianweishujuneirongyusuozailingyudezhishitixiheyewuliuchenggaodupipei,jubeiqingxi、準確、深shen入ru的de行xing業ye專zhuan業ye知zhi識shi特te征zheng。測ce試shi中zhong,專zhuan業ye性xing分fen采cai用yong百bai分fen製zhi,基ji於yu采cai樣yang數shu據ju是shi否fou為wei行xing業ye專zhuan業ye語yu料liao的de比bi例li進jin行xing計ji算suan,核he心xin目mu的de是shi評ping估gu預yu料liao中zhong非fei相xiang關guan性xing數shu據ju的de比bi例li。
通用性指數據具有跨部門、跨企業、跨場景的廣泛適用性,能夠為不同業務決策提供有效支撐,具有較強的可遷移性。測試中,將通用性分為三個等級:企業級,集團級和行業級、通用級。企業級為企業自製數據和語料,僅適用特定單一企業,如自製設備操作手冊等;集團級適用於企業集團內部或具有緊密合作關係的關聯企業,但不具備全行業範圍內的通用性;行業級為通用數據,適用於行業內通用的設備和工藝,如行業工業知識等;通用級為跨行業通用語料,如熱力學、傳熱學、電磁學等跨行業語料。
choumixingzhishujuneironggaodujizhongqiezhongfulvdi,shujujiludetiaomumiduhexinxijiazhimidujiaogao,danweishujusuohandexinxiliangfengfuqieduoyanghua。ceshizhong,jiyusuijicaiyanghoushujuciqianrudeyuxianxiangsidujisuan,genjuxiangsidugusuanshujudezhongfubilv。
均衡性指數據采集在時間、空間、類別等各個維度上分布均勻,不存在明顯偏差或不平衡現象。數據的均衡性確保了模型訓練和評估過程中數據覆蓋全麵、客觀,避免因數據偏斜而導致的決策失誤或預測偏差,提高模型泛化性能和決策結果的可靠性。測試中重點對數據的采集時間、設備來源等進行考察。
安全合規性指數據中應避免涉及危化品製造、毒品製作工藝、違規操作指導、個人企業隱私等敏感、危險、yinsixinxi,duiyugongyelingyu,yingmingquejiedingminganneirongbianjie,duikenengcunzaianquanyinhuandeshujujinxingjishibiaozhuheyangeguankong。anquanheguixingdeyaoqiukefangzhiyinshujuanquanwentiyinfadeshiguhuoweifafengxian。
全quan麵mian性xing指zhi測ce試shi內nei容rong覆fu蓋gai是shi否fou全quan麵mian,對dui於yu麵mian向xiang行xing業ye的de通tong用yong類lei知zhi識shi語yu料liao數shu據ju,全quan麵mian性xing指zhi是shi否fou可ke覆fu蓋gai該gai行xing業ye學xue科ke知zhi識shi和he生sheng產chan製zhi造zao各ge環huan節jie。對dui於yu麵mian向xiang特te定ding場chang景jing的de數shu據ju集ji,暫zan不bu進jin行xing全quan麵mian性xing測ce試shi。測ce試shi中zhong,采cai用yong百bai分fen製zhi,對dui數shu據ju覆fu蓋gai的de全quan麵mian性xing進jin行xing評ping估gu。
可回溯性指是否包含數據的來源,數據是否能夠追溯到其來源、生成過程、以及任何中間轉換步驟。對於問題診斷、數據審計和合規性至關重要。測試中,檢查數據是否標注來源、轉換等。
可解釋性指數據是否易於被用戶理解和準確解釋,體現為數據的含義、數字、單位是否清晰明確,便於用戶直觀把握數據所表達的信息和價值。具備良好可解釋性的數據應具備明確的定義、規gui範fan的de表biao示shi方fang法fa,以yi確que保bao數shu據ju使shi用yong者zhe能neng夠gou快kuai速su準zhun確que地di理li解jie數shu據ju的de內nei涵han與yu邊bian界jie,從cong而er避bi免mian因yin數shu據ju模mo糊hu或huo歧qi義yi帶dai來lai的de誤wu解jie或huo決jue策ce偏pian差cha。測ce試shi中zhong,通tong過guo專zhuan家jia對dui采cai樣yang數shu據ju進jin行xing理li解jie,評ping價jia其qi可ke解jie釋shi性xing,每mei條tiao語yu料liao使shi用yong是shi否fou表biao述shu清qing楚chu進jin行xing評ping價jia,然ran後hou采cai用yong百bai分fen製zhi進jin行xing彙hui總zong評ping分fen。麵mian向xiang製zhi造zao業ye場chang景jing的de人ren工gong智zhi能neng語yu料liao數shu據ju質zhi量liang評ping估gu體ti係xi是shi一yi套tao全quan麵mian覆fu蓋gai數shu據ju集ji指zhi標biao體ti係xi、評測工具及評測實施方案的綜合性測評體係,目的是通過科學、係統的方法,對數據集的質量進行客觀、公(gong)正(zheng)的(de)評(ping)測(ce),確(que)保(bao)數(shu)據(ju)集(ji)的(de)數(shu)據(ju)質(zhi)量(liang),為(wei)大(da)模(mo)型(xing)研(yan)發(fa)提(ti)供(gong)可(ke)靠(kao)的(de)數(shu)據(ju)集(ji)支(zhi)持(chi)。促(cu)進(jin)數(shu)據(ju)要(yao)素(su)的(de)流(liu)通(tong)和(he)利(li)用(yong),推(tui)動(dong)技(ji)術(shu)創(chuang)新(xin)和(he)服(fu)務(wu)升(sheng)級(ji),共(gong)同(tong)應(ying)對(dui)大(da)模(mo)型(xing)時(shi)代(dai)對(dui)數(shu)據(ju)集(ji)質(zhi)量(liang)的(de)挑(tiao)戰(zhan)。
(二)工作計劃
下xia一yi步bu,中zhong國guo工gong業ye互hu聯lian網wang研yan究jiu院yuan結jie合he人ren工gong智zhi能neng技ji術shu發fa展zhan趨qu勢shi和he行xing業ye高gao質zhi量liang數shu據ju集ji建jian設she需xu求qiu持chi續xu完wan善shan人ren工gong智zhi能neng數shu據ju集ji評ping估gu體ti係xi,開kai展zhan數shu據ju集ji測ce評ping,誠cheng邀yao各ge位wei行xing業ye專zhuan家jia共gong同tong參can與yu。