近日,國家數據局公布首批104個高質量數據集典型案例,中國電信自主研發的“網絡大模型高質量數據集”從全國663個申報案例中脫穎而出,成功入選國家級示范名單。這是繼今年5月榮獲國務院國資委“央企人工智能行業高質量數據集優秀建設成果”后,中國電信在人工智能與數據要素融合應用領域再次獲得的重要認可。
作為數字中國建設的主力軍,中國電信始終堅持以科技創新驅動產業發展,此次入選標志著其在推動大模型產業落地、構建高質量數據基礎設施方面取得突破性進展,彰顯了央企在賦能千行百業數字化、智能化轉型中的引領作用。
破解行業難題,構建通信領域高質量數據基座
在人工智能與實體經濟深度融合的背景下,大模型技術在實際落地過程中仍面臨諸多挑戰。尤其在通信這類高度復雜且專業性強的行業中,通用大模型往往難以直接適用,存在專業知識缺失、輸出“幻覺”、決策可信度低等問題。中國電信直面行業痛點,以“破解應用鴻溝、提升模型專業性”為目標,系統推進高質量通信數據集建設。
該項目以“5+2”云網知識體系為核心架構,全面覆蓋接入、傳輸、核心、數據和業務五大網絡層級,并融入云資源與網絡安全兩大維度,形成體系化、結構化的通信知識框架。在組織建設上,確立以“組織、流程、運營、安全”為四大支柱的實施路徑,構建起科學嚴謹的數據治理體系。
通過聚合多源異構數據,包括設備運行狀態、網絡流量、運維日志、故障工單、用戶行為軌跡等,中國電信建成總規模6TB的高質量、多模態領域數據集,涵蓋超數百個細分業務場景。數據標注經過嚴格質量控制與專家校驗,確保高一致性與可用性。這一數據基座不僅為通信網絡運營管理全面邁向自動化和智能化奠定基礎,更拓展至智慧城市、工業互聯網、金融科技等跨界場景,為行業提供了可復用的數據資源典范。
技術創新驅動,實現高效治理與分鐘級知識構建
中國電信在數據工程技術層面實現多項突破,系統融合多源智能解析、動態清洗與多級去重機制,顯著提升數據處理的規模化與自動化水平。面對通信數據中存在的敏感信息與隱私保護需求,團隊自主研發高精度隱私保護算法,集成差分隱私、聯邦學習等先進技術,實現對用戶數據和運營信息的有效保護,真正實現“數據可用不可見”。
在知識構建環節,團隊首創SIE(來源-索引-編碼)分層建庫技術,通過對多模態數據實行統一來源管理、智能索引構建與標準化編碼,實現分鐘級知識入庫與更新。該技術極大提升知識迭代效率,解決了傳統建庫模式周期長、響應慢的痛點,特別適合實時性要求極高的通信場景。
檢索與知識發現方面,項目提出多模態混合檢索架構與重排序技術,支持文本、圖像、結構化數據之間的跨模態語義關聯查詢,有效提升深層次、隱性知識的發現與召回準確率。目前,其知識增強服務累計檢索量已突破千萬次,準確率穩定在90%以上,達到行業領先水平。這些技術成果不僅服務于中國電信內部多個智能化業務系統,也通過開源工具和標準化接口向行業開放,助力產業鏈共同提升數據治理與知識自動化水平。