中国信通院何宝宏:数据治理发展趋势

发布时间:2023-12-21 13:48:41 | 来源:中国网 | 作者:辛文 | 责任编辑:赵茜

12月20日,2023数据资产管理大会在京召开,中国信通院何宝宏受邀出席并做数据治理发展趋势报告。

数据作为新型生产要素,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。国家层面,数据相关战略布局不断加强。2022年 6月“数据二十条”发布,对数据要素未来的基础制度建设做出了重要布局,提出要构建数据产权、交易流通、收益分配、安全治理等制度体系。其核心目的是提高数据要素供给数量和质量,充分保障数据处理者使用数据和获得收益的权利,充分实现数据要素价值、促进全体人民共享数字经济发展红利。2023年10月,国家数据局正式挂牌成立,统筹推进国家数据要素与数字中国战略协同发展,核心任务一是推动数据基础制度建设,发挥数据要素乘数效应;二是推动数据资源整合与利用,充分激活数据要素潜能;三是统筹推动数据基础设施建设,持续繁荣数据要素产业生态;四是推进数字中国和数字经济发展,做大做强做优数字经济。

产业方面,近年来随着通用人工智能技术的飞速发展,对于数据治理提出了新的需求。大规模、多样化、高质量的训练数据集是大模型建设的核心竞争力,Meta最新发布的大模型的训练数据集达到了4828GB,是5年前GPT-1数据集规模的一千倍。吴恩达等科学家提出了以“数据为中心的人工智能”,希望通过系统性地改进和增强数据集,从而提高人工智能模型的准确性和可用性。然而面向人工智能的数据治理体系刚刚开始发展,仍面临诸多挑战,例如高质量数据集的获取、数据集质量的评价与提升、数据资源的知识产权保护、生成内容的管理等。这些都对数据治理的技术和方法论提出了更高的要求。

从企业层面来看,数据是企业知行合一的核心要素。一方面数据是业务在数字世界的记忆,它的质量、安全、连通性对业务本身至关重要。另一方面企业通过数据分析技术,将业务沉淀的数据加工成为信息、知识甚至是智慧,以辅助提升企业的决策能力,驱动下一轮的经营行为。经过多年发展,一些头部机构基本实现了业务在线化,积累了大量的数据,现在最迫切的命题就是如何构建数据驱动的能力,让自动化的决策能力和数据驱动的文化深入到企业的每个角落,以形成企业新的竞争优势。

数据治理的目的是数据的可得、可用、好用,释放数据价值,最终实现数据驱动的企业运营。只有通过对数据科学治理,数据在企业内部的流动才具有意义,不同维度的数据汇聚在一起,才能创造新的价值。

近年来国家和行业陆续发布相关政策文件,鼓励和指导企业开展数据管理工作。《大数据产业发展十四五规划》明确提出“加强数据“高质量”治理”,《金融科技发展规划(2022—2025年)》要求金融机构“建立协调一致、涵盖数据全生命周期的数据治理体系”,通信、制造、民航等行业管理机构也陆续发布政策文件,加强推动本行业数据管理工作。

2020年起中国电子联合会牵头数据管理能力成熟度评估贯标工作,经过4年的推广,DCMM已经成为了国内数据治理的方法论。2023年DCMM贯标企业量增加108%,由上年度的9个细分领域增加到近20个细分领域,其中通信业、银行业、电力业数据管理能力相对领先。

头部企业的数据管理工作已进入深水区,企业数据管理呈现4大趋势。一是大量企业开始成立专职团队,增强数据管理执行效率;二是发布独立数据战略,推动数据管理精准开展;三是开展专项行动,进一步提升数据供给质量。四是建立统一技术平台,消除协同难点。

数据治理领域的六个趋势

数据管理与数据开发的融合在加速,新的数据开发范式正在形成。数据开发能力是企业数据生产力的核心,大型银行、大型运营商已经构建了较为强大的数据治理体系,但仍然存在数据需求不畅通、开发治理两张皮、数据开发效率低、跨域协同难推进等问题。

DataOps是数据开发的一种新范式,最早由IBM和Gartner提出,中国信通院在逐步推动DataOps理念在国内的实践。DataOps是一种敏捷数据开发的理念,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量。为指导企业开展DataOps工作,信通院牵头定义了DataOps能力框架,将DataOps的流水线分为四个域,分别是研发、交付、运维和价值。DataOps体系的运转还需要三个关键的保障职能,分别是组织管理、系统工具和安全管控。

由信通院牵头的标准组织正在完善DataOps标准体系, 2022年底标准组完成了数据研发管理的标准,并在农行、工行、浙江移动、江苏移动等领先机构进行了评估验证;今年标准组发布了《DataOps实践指南1.0》,已经完成了系统工具的标准化工作,将启动交付、运维两个标准的制定; 2024年将进一步完善标准体系,持续推动DataOps理念在国内落地。

大型机构正面临数据统一纳管的难题。由于大型机构分支机构多、业务体系庞杂、数据平台建设缺乏统一规划,导致无法在集团层面形成统一的数据管理与应用视图,集团内数据共享和流通的成本较高,难以整体激活数据的价值。有部分大型机构尝试通过统一物理基础设施来解决这一问题,这种模式依赖于高层强有力的推动力,且成本和代价较大。

数据编织(DataFabric)是一种新崛起的数据管理概念,目的是实现一种灵活的、可重用的数据集成方法和服务,从而能够跨多平台支持不同的数据操作和分析任务。核心思路是通过增强数据目录、数据虚拟化、主动元数据等技术,将大型机构内多个数据平台进行逻辑集中管理,避免物理集中带来的重复建设,实现数据在大型机构内的统一纳管、充分共享、融合分析与应用。国内外已经有一批企业开始提供数据编织的解决方案,信通院牵头的标准组织已经启动数据编织的研究和标准化工作,明年将发布相关的研究成果。  

信通院在2017年发布的《数据资产管理实践白皮书1.0》中提出了数据资产管理的概念,试图建立一种新的理念,即要面向数据价值开展数据的管理工作,经过6年的时间迭代,白皮书已经更新到了6.0,成为了国内开展数据资产管理比较权威的理论框架。白皮书将数据资产管理分为数据资源化和数据资产化两个阶段。其中,数据资产化涉及数据资产估值、数据资产运营、数据资产流通三大核心活动,主要目的是扩大数据资产应用范围,显性化数据资产价值收益。

为了让业务团队更好的理解数据资产、使用数据,需要对数据资产进行运营,持续地推动数据资产价值释放。信通院联合30家企业,提出具有普适性的数据资产运营框架,定义了数据资产的规划、识别、应用、推广、优化等关键环节,包括8大能力域、22个能力项和200余条能力要求,以解决企业数据资产摸不清、数据资产运营能力差、数据资产价值难发挥等问题。

2023年8月,财政部正式发布《企业数据资源相关会计处理暂行规定》,并于2024年1月1日开始施行,指出现阶段数据资源会计处理应当按照企业会计准则相关规定执行。但是从数据资源到可以入表的数据资产,中间还有很多的难点需要一一击破,特别是从价值评估的角度,质量因素、应用因素、成本因素和法律因素都会对结果形成关键的影响。关于数据资产估值,业界有很多探索,但还都是停留在方法论层面。我们认为企业围绕数字化场景来进行非货币化的价值评估是比较现实的,在非货币化评估的基础上,未来可以进行货币化的转化。当前我们正在和一些头部央国企、银行,围绕企业数据应用场景开展数据资产估值落地实践,制定了七大估值步骤和详细的实施方案,预计明年年初将产出首个比较细粒度的估值实践,为数据资产入表做好前期准备。

通用人工智能的发展,使得数据与算法的边界更加模糊,数据嵌入到了模型的生成中,数据质量与安全直接影响模型结果。然而面向人工智能的数据治理面临诸多挑战,需要关注三个方面的问题,一是方法论缺失,目前,面向人工智能数据治理的方法刚刚开始,尚未形成类似DAMA、DGI等结构化数据管理的框架,相关的技术工具也不成熟,亟需从理论框架、技术工具、产业实践等方面构建体系;二是数据集质量评价体系不完善,面向人工智能训练的数据集质量评价体系不同于传统结构化数据,除了六性原则,还需要考虑代表性、可追溯性等维度,同时还得兼顾公平性、非歧视性等因素,需要量身定制的工程化能力;三是数据安全与隐私保护的挑战,大模型生成过程中涉及大量安全问题和隐私问题,包括知识侵权、个人信息的违规收集、数据不安全传输、数据恶意篡改等内容,如何在模型生产、使用、运营整个全生命周期建立起数据安全和隐私保护能力,需要进一步探索。

目前,中国信通院正在积极探索推进人工智能数据治理的发展。由中国信通院牵头,联合30多家企业,已启动编写《人工智能数据治理白皮书》,面向人工智能数据治理的核心问题,总结方法论和实践体系,帮助企业构建全面的数据治理能力。人工智能数据安全风险评价标准也正在制定过程中,旨在指导企业管理好自身数据,避免数据泄露,保护好用户隐私。此外,面向高质量数据集,我们将推进可信数据集流通及质量评价方法的标准制定,定义数据质量评价维度和评价方法,形成数据工程化的方法。

随着数据资源整合共享与开发利用进程加快,数据安全进入了流通安全的深水区,组织机构的数据资源将逐渐由在组织“内”流通向在组织“外”流通演进。流通环节责任主体增多,流通频次和范围逐步增加,数据安全的风险暴露面也随之增加,需要面向责任主体和流通环节设计更细致的数据安全责任划分。

其次,人工智能技术快速应用于各行业场景,在驱动数据分类分级、数据安全风险监测等数据安全治理工作向智能化、高效化、精准化方向演进的同时,也带来了新的数据安全问题。

第三,随着数据生态日益复杂,各种数据角色陆续进场,安全风险愈演愈烈,安全能力运营愈发关键。数据安全运营能力的构建能够打破各组织既有数据安全产品间的壁垒,实现策略的有效整合,是提升数据安全工作成效的关键。

中国信通院持续研究数据安全治理与风险防控体系,推出数据安全治理能力评估框架,这套评估框架不仅定义了数据安全治理的概念和细则,同时也配套了相应的能力建设的方法论,能够指导企业了解自身数据安全治理现状,评估差距,促进企业开展能力建设。结合行业监管要求,我们推出了面向金融、汽车等领域的评估专项,帮助企业以评促建,查缺补漏,提升数据安全治理能力。

总结来看,数据治理有六个大的发展趋势,一是国内数据管理方法论的正在形成,DCMM评估在各行业逐渐普及;二是数据管理与数据开发的融合正在进行,DataOps体系正当其时;三是数据编织构建下一代数据架构,极大提升数据管理效率;四是数据管理向资产管理跃迁,资产评估和资产运营理论框架进一步细化;五是面向人工智能的数据管理需求迫切,亟需构建面向AI的数据治理体系;六是数据安全落地规模与深度逐渐加快,需要关注数据流通安全、人工智能数据安全以及数据安全运营等新的发展方向。