邹传伟:对数据要素的特征、价值和配置机制的初步研究

2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术等传统要素并列为要素之一,提出要加快培育数据要素市场,包括推进政府数据开放共享、提升社会数据资源价值和加强数据资源整合和安全保护等三方面工作。

数据作为要素是一个新命题,有大量前沿问题需要研究。在文献中,相关问题归属于数据经济(Data Economy)范畴。数据经济指数据收集、组织、使用、分享、流转和管理等活动组成的经济生态。

德勤和阿里研究院(2019)认为数据资产不完全符合会计准则中对于“资产”及“无形资产”的定义。剑桥大学研究报告《数据的价值》(BIPP,2020)对数据经济的理论、实践和政策问题进行了全面综述。李小加(2020)提出组建数据要素产业化联盟,梳理数据经济中八方面的重要问题。于施洋等(2020)分析了我国深化数据要素市场化配置面临的挑战,提出搭建公共平台、完善市场条件、研究配套政策、推动协同联动、优化市场结构等方面政策建议。但从国内外研究来看,数据经济是一个方兴未艾的领域,而且学术研究略显落后于行业和监管实践,有不少新概念、新问题和新机制值得梳理。

本文对以下三个问题进行了初步探讨:第一,数据要素有哪些重要的技术和经济学特征?第二,数据价值的内涵和计量方法;第三,数据要素的配置机制

一、数据要素的技术和经济学特征

(一)数据的技术特征

什么是数据?与通常认为的不同,这是信息科学中一个基本但复杂的问题,没有显而易见的答案。对数据的理解离不开对信息和知识等相关概念的辨析。Ackoff(1989)提出了DIKW模型(图1),D指数据(Data),I指信息(Information),K指知识(Knowledge),W指智慧(Wisdom)。DIKW模型在信息管理、信息系统和知识管理等领域有广泛使用,不同研究者从不同角度给出不同解释,Rowley(2007)进行了综述。本文不深入讨论DIKW模型,只在Rowley(2007)的基础上梳理数据的技术特征中与经济学分析最相关的部分。

经济

图1:DIKW模型

第一,智慧、知识、信息和数据之间依次存在从窄口径到宽口径的从属关系。从数据中可以提取出信息,从信息中可以总结出知识,从知识中可以升华出智慧。这些提取、总结和升华都不是简单的机械过程,依靠不同方法论和额外输入(比如应用场景和相关学科的背景知识)。因此,信息、知识和智慧尽管也属于数据的范畴,却是“更高阶”的数据。

第二,数据是观察的产物。观察对象包括物体、个人、机构、事件以及它们所处环境等。观察是基于一系列视角、方法和工具进行的,并伴随着相应的符号表达系统,比如度量衡单位。数据就是用这些符号表达系统记录观察对象特征和行为的产物。数据可以采取文字、数字、图表、声音和视频等形式。在存在形态上,数据有数字化的(Digital),也有非数字化的(比如记录在纸上)。但随着信息和通讯技术(ICT)的发展,越来越多数据被数字化,在底层都表示成二进制。

第三,数据经过认知过程处理后得到信息,给出关于谁(Who)、什么(What)、何处(Where)和何时(When)等问题的答案。信息是有组织和结构化的数据,与特定目标和情景有关,因此有价值和意义。比如,根据信息论,信息能削减用熵度量的不确定性。

第四,与数据和信息相比,知识和智慧更难被准确定义。知识是对数据和信息的应用,给出关于如何做(How)的答案。智慧则有鲜明的价值判断意味,在很多场合与对未来的预测和价值取向有关。

接下来用计量经济学为例说明DIKW模型。计量经济学是经济学实证分析的主要方法。实证分析基于观察,回答“是什么”的问题。在计量经济学中,观察的对象通常被称为样本,可以是个人、机构、地区甚至国家。从不同角度观察样本,对应计量经济学中的变量概念。从不同角度观察一组样本得到横截面数据,而在不同时点上持续从同一角度观察得到时间序列数据,横截面数据和时间序列数据的综合则是面板数据。这些类型的数据都是结构化数据。随着越来越多的数据被数字化,以及人工智能和大数据分析方法的发展,半结构化数据和非结构化数据在经济学中也有越来越多应用,比如互联网浏览、点击等数据。

计量经济学从数据中提炼信息,主要包括:一是发现数据中隐含的规律和模式;二是估计模型;三是检验假说。这对应着DIKW模型的信息层次。比如,对数据做描述统计,计算变量的平均值、标准差以及变量之间的相关系数等,是从数据中提炼信息的最简单方式之一。计量经济学经常假设数据遵循数据生成过程(Data Generation Process),但数据生成过程的模型形式和参数取值未知,并且随机干扰会为观察带来误差。计量经济学根据观察到的数据,估计数据生成过程,再据此检验假说。人工智能和大数据分析方法对数据的处理更为灵活,分为预测型分析和描述型分析。预测型分析是根据某些变量的取值,预测另外一些变量的取值。描述型分析是导出、概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。两类分析体现为分类、回归、关联分析、聚类分析、推荐系统和异常检测等具体方法。

根据计量经济学分析结果提出政策建议,对应着DIKW模型的知识层次。很多政策研究属于规范分析,回答“应该是什么”的问题。经济学关于经济均衡、经济增长、宏观调控、价格机制、微观激励和风险定价等方面的洞见,对应着DIKW模型的智慧层次。

一般而言,数据的技术特征主要包括以下维度:

  • 数据的样本分布、时间覆盖和变量/属性/字段等。
  • 数据容量,比如样本数、变量数、时间序列长度和占用的存储空间等。
  • 数据质量,比如样本是否有代表性,数据是否符合事先定义的规范和标准,观察的颗粒度、精度和误差,以及数据完整性(比如是否有数据缺失情况)。
  • 数据的时效性。鉴于观察对象的特征和行为可以随时间变化,数据是否还能反映观察对象的情况?
  • 数据来源。有些数据来自第一手观察,有些数据由第一手观察者提供,还有些数据从其它数据推导而来。数据可以来自受控实验和抽样调查,也可以来自互联网、社交网络、物联网和工业互联网等。数据可以由人产生,也可以由机器产生。数据可以来自线上,也可以来自线下。
  • 数据类型,包括是数字化还是非数字化的,是结构化还是非结构化的,以及存在形式(文字、数字、图表、声音和视频等)。
  • 不同数据集之间的互操作性和可联接性,比如样本ID是否统一,变量定义是否一致,以及数据单位是否一致等。
  • 是否为个人数据。个人数据在隐私保护上有很多特殊性,需要专门讨论。

(二)数据的经济学特征

与数据的技术特征相比,数据的经济学特征要复杂得多。数据可以产生价值(见后文),因此具有资产属性。数据兼有商品和服务的特征。一方面,数据可存储、可转移,类似商品。数据可积累,在物理上不会消减或腐化。另一方面,很多数据是无形的,类似服务。数据作为资产具有很多特殊性,可以从表1的视角分析:

经济

表1:公共产品、准公共产品和私人产品的分类

非竞争性指的是,当一个人消费某种产品时,不会减少或限制其他人对该产品的消费。换言之,该产品每增加一个消费者,所带来的边际成本等于0。大部分数据可以被重复使用,重复使用不会降低数据质量或容量,并且可以被不同人在同一时间使用,因此具有非竞争性。

非排他性指的是,当某人在付费消费某种产品时,不能排除其他没有付费的人消费这一产品,或者排除的成本很高。很多数据是非排他性的,比如天气预报数据。但通过技术和制度设计,有些类型的数据有排他性。比如,一些媒体信息终端采取付费形式,只有付费会员才可以阅读。

根据表1,很多数据属于公共产品,可以由任何人为任何目的而自由使用、改造和分享。比如,政府发布的经济统计数据和天气预报数据。一些数据是俱乐部产品,属于准公共产品,比如前面提到的收费媒体信息终端。大部分数据是非竞争性的,因此属于私人产品和公共资源的数据较少。

数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。数据容易在未经合理授权的情况下被收集、存储、复制、传播、汇集和加工,并且数据汇集和加工伴随着新数据的产生。这使得数据的所有权很难界定清楚,也很难被有效保护。比如,在互联网经济中,互联网平台记录下用户的点击、浏览和购物历史等,是非常有价值的数据。这些数据尽管描述了用户的特征和行为,但不像用户个人身份信息那样由用户对外提供,很难说由用户所有。互联网平台尽管记录和存储这些数据,但这些数据与用户的隐私和利益息息相关,很难任由互联网平台在用户不知情的情况下使用和处置这些数据,所以互联网平台也不拥有完整产权。

因此,需要通过制度设计和密码学技术等精巧界定用户作为数据主体以及互联网平台作为数据控制者的权利,这会为他们之间的经济利益关系产生显著影响。

很多文章把数据比喻成新经济的石油。这个比喻实际上不准确。石油是竞争性和排他性的,产权可以清楚界定,作为私人产品形成了现货和期货等复杂的市场交易模式。很多数据难以清晰界定所有权,作为公共产品或准公共产品难以有效参与市场交易。因此,把数据比喻成阳光更为合适。

二、数据价值的内涵和计量

 

(一)数据价值的内涵

根据DIKW模型,从数据中提炼出信息、知识和智慧,这隐含着数据价值链的概念。原始数据经过处理并与其他数据整合后,再经分析形成可行动的洞见,最终由行动产生价值。

数据价值可以从微观和宏观两个层面理解。在微观层面,信息、知识和智慧既可以满足使用者的好奇心(即作为最终产品),更可以提高使用者的认知,帮助他们更好做出决策(即作为中间产品),最终效果都是提高他们的效用。数据对使用者效用的提高,就反映了数据价值。在宏观层面,信息、知识和智慧有助于提高全要素生产率,发挥乘数作用,这也是数据价值的体现。本文主要讨论微观层面的数据价值,有以下关键特征。

1.同样数据对不同人的价值可以大相径庭

第一,不同人的分析方法不一样,从同样数据中提炼出的信息、知识和智慧可以相差很大。比如,在科学史上,很多科学家深入研究一些大众习以为常的现象并做出了重大发现。重物落地之于牛顿,闪电之于富兰克林,海水的蓝色之于拉曼,与它们对大众的价值是完全不一样的。再比如,在经济学中,不同的经济学家对同样的经济数据经常做出完全不一样的解读。

第二,不同人所处的场景和面临的问题不一样,同一数据对他们起的作用也不一样。同一数据,对一些人可能是垃圾,对另一些人则可能是宝藏。比如,考古发现对历史研究者的价值很大,但对金融投资者则很可能没有价值。比如,另类数据(Alternative Data)包括个人产生数据、商业过程数据和传感器数据等。这些数据能帮助投资者做投资决策,但对非金融投资者则没有太大价值。不同的人可以在不同时间维度上使用数据,比如有评估过去的,有分析当前的,有预测未来的,也有做回溯测试的。使用目的不同,对数据的要求不一样,同一数据就意味着不同价值。

第三,不同制度和政策框架对数据使用的限定不一,也会影响数据价值。换言之,数据价值内生于制度和政策。比如,不同国家对个人数据的保护程度不一,个人数据被收集和使用的情况以及产生的价值在国家之间有很大差异。我国排名靠前的互联网平台基于用户行为数据推出了在线信贷产品,这在其他国家则不常见。互联网平台获得用户数据后,如果不恰当保护和使用,不尊重用户隐私,将会影响其品牌形象和用户信任,对数据价值和公司价值都会带来负面影响。2020年4月,美国联邦法院批准Facebook与美国联邦贸易委员会就剑桥分析丑闻的50亿美元和解协议。

2.数据价值随时间变化

第一,数据有时效性。很多数据在经过一段时间后,因为不能很好反映观察对象的当前情况,价值会下降。这种现象称为数据折旧。数据折旧在金融市场中表现得非常明显。比如,一个新消息在刚发布时可以对证券价格产生很大影响,但等到证券价格反映这个消息后,它对金融投资的价值就急剧降到0。在DIKW模型中,将数据提炼为信息、知识和智慧,并且提炼层次越高,就越能抵抗数据折旧。

第二,数据有期权价值。新机会和新技术会让已有数据产生新价值。在很多场合中,收集数据不仅是为了当下的需求,也有助于提升未来的福利。

3.数据会产生外部性

第一,数据对个人的价值称为私人价值,数据对社会的价值称为公共价值。数据如果具有非排他性或非竞争性,就会产生外部性,并造成私人价值与公共价值之间的差异。这种外部性可正可负,没有定论。

第二,数据与数据结合的价值,可以不同于它们各自价值之和,是另一种外部性。但数据聚合是否增加价值,也没有定论。一方面,可能存在规模报酬递增情形,比如更多数据更好地揭示了隐含的规律和趋势。另一方面,可能存在规模报酬递减情形,比如更多数据引入更多噪声。但总的来说,数据容量越大,数据价值不一定越高,数据内容也很重要。比如,1小时的视频监控数据,有价值数据可能仅有1-2秒。

(二)数据价值的计量

1.绝对估值

鉴于数据价值的三个关键特征,数据的绝对估值比较难,没有公认方法。目前行业实践中有几种主要方法,但都有缺陷(BIPP,2020;德勤和阿里研究院,2019)。

第一,成本法,也就是将收集、存储和分析数据的成本作为数据估值基准。这些成本有软件和硬件方面的,也有知识产权和人力资源方面的,还有因安全事件、敏感信息丢失或名誉损失而造成的或有成本。数据收集和分析一般具有高固定成本、低边际成本特征,从而有规模效应。成本法尽管便于实施,但很难考虑同样数据对不同人、在不同时间点以及与其他数据组合时的价值差异。另外,德勤和阿里研究院(2019)指出,一些数据为企业生产经营的附加产物,获取成本通常难以从业务中划分出来而难以可靠计量。显然,数据价值不一定高于成本,说明不是所有数据都值得收集、存储和分析。

第二,收入法,也就是评估数据的社会和经济影响,预测由此产生的未来现金流,再将未来现金流折现到当前。收入法在逻辑上类似公司估值中的折现现金流法,能考虑数据价值的三个关键特征,在理论上比较完善,但实施中则面临很多障碍。一是对数据的社会和经济影响建模难度很大。二是数据的期权价值如何评估。实物期权估值法是一个可选方法,但并不完美。

第三,市场法,也就是以数据的市场价格为基准,评估不在市场上的数据的价值。市场法类似股票市场的市盈率和市净率估值方法。市场法的不足在于,很多数据是非排他性的或非竞争性的,很难参与市场交易。目前,数据要素市场有一些尝试,但市场厚度和流动性都不够,价格发现功能不健全。另外,一些公司兼并收购价格着包含着对数据的估值,但不易分离出来。

第四,问卷测试法。这个方法主要针对个人数据,通过问卷测试个人愿意收多少钱以出让自己的数据,或愿意花多少钱保护自己的数据,从而评估个人数据的价值。这个方法应用面非常窄,实施成本较高。

2.相对估值

数据相对估值目标是,给定一组数据以及一个共同的任务,评估每组数据对完成该任务的贡献。与绝对估值相比,相对估值要简单一些,特别针对定量的数据分析任务。

在数据相对估值中,常见数据分组方法包括:一是变量/字段一样,但属于不同的观察样本;二是同样的观察样本,但变量/字段不同。对常见预测性任务和描述性任务,统计学和数据科学建立了量化评估指标。比如,对预测任务,需做样本外检验,评估预测误差。在预测变量是离散型时,常用准确率、错误率以及操作特征(Receiver Operating Characteristic,ROC)曲线下方面积等指标。在预测变量是连续型时,常用标准误差。对描述任务,需用样本数据评估模型拟合效果,线性模型一般用R平方,非线性模型一般用似然函数(需对干扰项分布做出假设)。

经济

使用Shapley值进行数据相对估值遵循以下步骤。第一步:定义数据集合及其元素。第二步:定义拟完成的任务。第三步:选择完成任务所使用的模型及评估指标。第四步:对数据集合中元素形成的每一个数据子集(经济〡N〡个元素,意味着2〡N〡个可能的数据子集),运行模型并获得评估结果。第五步:根据Shapley值计算每个元素对完成任务的贡献。此方法的主要不足是,随着数据集合的元素数量上升,计算量将指数上升。主要优点是符合直觉,容易计算,而且源自经济学的长期研究。Jia et al. (2019)讨论了如何优化使用Shapley值进行数据相对估值的计算过程。

数据相对估值说明,同一数据在用于不同任务,使用不同分析方法,或与不同数据组合时,体现出的价值是不同的。特别是,偏离数据集合“主流”的数据,在相对估值上可能比靠近数据集合“主流”的数据高,这显示了“异常值”(Outlier)的价值。

 

三、数据要素的配置机制

 

在现实中,数据有多种类型和不同特征,相应产生了不同的配置机制。因为很多数据不适合参与市场交易,很多配置机制不属于市场交易模式。换言之,市场化配置不等于市场交易模式。

这些机制都致力于解决数据要素配置中的两个突出问题。第一,信息不对称。数据要素配置机制涉及多个利益不一致的参与方。比如,数据主体往往不清楚自己数据在何时、因何目标或有何后果而被收集。数据生产者不清楚数据主体是否选择性披露数据,以及在知道自己的数据被收集时是否会有针对性地调整行为,也不清楚生产出的数据对不同数据使用者的价值。数据使用者在事前很难完全了解数据对自己的价值。比如,数据相对估值就是在事后进行的。

第二,非完全契约。数据要素配置机制都可以表示成一系列契约的组合。但数据应用有丰富场景,数据价值链有多个环节,数据价值缺乏客观计量标准,这些因素使得数据要素配置机制很难在事前覆盖事后所有可能出现的情况。这既会影响数据主体分享数据以及数据生产者生产数据的激励,也会影响数据价值在数据价值链中不同贡献者之间的合理分配。

接下来,按照数据的经济学特征以及应用场景,讨论有代表性的数据要素配置机制。

(一)作为公共产品的数据

数据作为公共产品时,由私人部门提供会有投资不足和供给不足的问题,一般由政府部门利用税收收入提供。政府部门的数据开放和共享项目可以在这个框架下理解。政府部门应该在不涉密的前提下,尽可能向社会和市场开放政府数据,这样才能最大化政府数据的公共价值。

2009年,美国联邦政府推出数据开放门户网站Data.gov,为之前分散在联邦政府不同机构的网站上数据统一提供托管平台。2019年,美国《开放政府数据法案》要求,除涉及国家安全和其他特殊原因的数据以外,联邦政府应该在线发布它们拥有的数据,并且这些公开数据采取标准化、机器可读的形式。

2016年以来,我国颁布《政务信息资源共享管理暂行办法》、《公共信息资源开放试点工作方案》等一系列文件,开启政务数据共享开放进程。《关于构建更加完善的要素市场化配置体制机制的意见》提出的第一个工作方向就是推进政府数据开放共享。

(二)作为准公共产品的数据

作为准公共产品的数据如果在所有权上较为清晰,并且具有排他性,有以下三种主要的配置机制。

第一,作为俱乐部产品的数据,可以采取付费订购模式,比如收费媒体信息终端。

第二,开放银行模式。银行通过应用程序界面(Application Programming Interface,API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。银行既限定哪些用户数据可开放,也限定向哪些机构开放。这实际上是部分实现用户数据的可携带性。

第三,数据信托模式。根据BIPP(2020)的介绍,数据信托可以采取不同形式,比如法律信托、契约、公司以及公共和社区信托等。数据信托的主要目标包括:一是使数据可被共享;二是促进公共利益以及数据分享者的私人利益;三是尊重那些对数据有法律权利的人的利益;四是确保数据以合乎伦理和数据信托规则的方式共享。

(三)互联网平台的PIK(Pay-in-kind)模式

前面已提到,在互联网经济中,如果个人数据不是由用户对外提供,而是来自互联网平台对用户特征和行为的观察和记录,那么所有权就很难界定清楚。现实中,互联网平台经常为用户提供免费资讯和社交服务,目标是扩大用户量,并获得用户的注意力和个人数据(比如用户喜好、消费特征和社会联系等)。在这个模式中,可以认为是用户用自己的注意力和个人数据换取资讯和社交服务,因此被称为PIK模式(图2)。互联网平台一方面是通过广告收入变现用户流量,另一方面基于用户个人数据进行精准营销和开发信贷产品等。

经济

图2:互联网平台的PIK模式

PIK模式主要有三个弊端:第一,互联网平台与用户之间地位不平等,容易在未经用户授权的情况下收集用户数据,或过度收集用户数据,或把从甲业务中收集到的个人数据用于乙业务,从而造成隐私侵犯和数据滥用问题。第二,互联网平台如果形成捕获性生态,会锁定用户,并在事实上控制用户数据。用户很难将自己数据开放给或迁移到互联网平台的竞争对手。互联网平台通过数据垄断在PIK模式下,数据控制者(互联网平台)相对数据主体(用户)处于主导地位,并且数据控制者往往也是数据使用者,而数据主体对自己数据缺乏控制,在数据产权上有很多模糊不清之处。如何纠正PIK模式的弊端,是个人数据管理中的一个核心问题。

(四)数据要素市场

很多数据因为有非排他性或非竞争性,参与市场交易都面临限制。另一方面,非排他性或非竞争性造成的外部性,使得数据的私人价值与公共价值之间有差异,市场交易不一定能实现数据的最大社会价值。

在现实中,因为数据类型和特征的多样性,以及数据价值缺乏客观计量标准,目前并不存在一个集中化、流动性好的数据要素市场。但数据的点对点交易(类似场外交易)一直在发生,比如另类数据市场。这个市场中存在大量的另类数据提供商。它们对数据的处理程度从浅到深大致可分为原始数据提供者、轻处理数据提供者和信号提供者。这个市场已发展出咨询中介、数据聚合商和技术支持中介等,作为连接数据买方(主要是投资基金)和数据提供方之间的桥梁。其中,咨询中介为买方提供关于另类数据购买、处理及相关法律事宜的咨询,以及数据供应商信息。数据聚合商提供集成服务,买方只需和它们协商即可,无需进入市场与分散的数据提供商打交道。技术支持中介为买方提供技术咨询,包括数据库和建模等。

可见,另类数据市场发展已很完善,形成了丰富的分工合作关系,但这个市场仍很不透明且非标准化。这是目前数据交易面临的普遍问题。更不容忽视的是非法数据交易,比如交易个人隐私数据的“数据黑市”和“数据黑产”。2019年以来,我国对“数据黑产”开展了集中整顿。

如何建立合规有效的数据要素市场?一个可行选项是使用密码学技术,包括可验证计算(Verifiable computing)、同态加密(Homomorphic encryption)和安全多方计算(Secure multi-party computation)等(PlatON,2018)。

对复杂的计算任务,可验证计算会生成一个简短证明。只要验证这个简短证明,就能判断计算任务是否被准确执行,不需要重复执行计算任务。在同态加密和安全多方计算下,对外提供数据时,采取密文而非明文形式,从而使数据具备排他性。这些密码学技术支持数据确权,使得在不影响数据所有权的前提下交易数据使用权成为可能,从而构建数据交易的产权基础,并影响数据主体和数据控制者的经济利益关系。区块链技术用于数据存证和使用授权,也在数据产权界定中发挥重大作用。后文将讨论,除了技术以外,数据产权界定也可以通过制度设计来实施。

但即便如此,基于密码学的数据要素市场也不同于传统市场。首先,同一数据在加密后可以同时向多方提供,因此仍然是非竞争性的,除非数据使用者与数据控制者之间签署保密协议,要求后者不得再将数据提供给其他人使用,或者数据有很强时效性,一经使用后很快失去价值。换言之,数据很难成为私人产品,从而很难像私人产品那样参与市场交易。其次,同一数据对不同人的价值可以差别很大。这使得在基于密码学的数据使用权交易中,应用场景对数据价值的影响,可能超过了数据本身特征和内容的影响,从而很难从数据交易价格中提炼出有价值的定价信息。因此,基于密码学的数据要素市场不会采取“对同一商品,多个买方竞价,价高者得”的要素配置模式。

需要说明的是,数据要素市场不一定是简单的撮合买卖模式,可以存在其他复杂的模式。比如,Markit公司(2016年与HIS合并成HIS Markit)建立CDS(Credit Default Swap,信用违约互换)定价数据服务的模式值得研究。国际金融危机之前,CDS是纯粹的场外交易,信息披露很不完善。CDS头寸是金融机构重要的商业机密,很难与其他金融机构分享。参与CDS市场的金融机构只知道自己的CDS头寸,但不知道市场的整体情况。CDS市场没有好的指数,信息不对称程度很高。Markit公司成立于2003年,其股东包含主要的CDS做市商。这些金融机构股东把自己的CDS数据上传到Markit,Markit整合得到CDS市场数据后以收费方式对外提供,包括定价和参考数据、指数产品、估值和交易服务等。Markit的股东金融机构在不泄露自己商业机密的情况下,不仅从Markit的工作中获知CDS市场整体情况,还从Markit的业务增长中获得投资收益。Markit尽管没有对数据进行显式定价,但通过股权的利益绑定功能以及数据整合的“1+1>2”效应,解决了数据共享中的激励相容问题。这是一个复杂而巧妙的数据交易模式。我国个人征信市场的百行征信公司也可以在类似框架下理解。

(五)数据产权界定

从前面介绍的数据要素配置机制可以看出,数据产权界定是数据要素有效配置的基础。数据产权主要分为所有权和控制权。数据控制权包括谁能使用数据,如何使用数据,以及能否进一步对外分享数据等。在公司治理中,所有权和控制权是统一的——股东拥有公司,股东大会是公司的最高权力机关。但数据的所有权和控制权可以分离,特别是对所有权不清晰的个人数据。数据产权可以通过技术来界定,比如可验证计算、同态加密和安全多方计算等密码学技术。数据产权还可以通过制度设计来界定。

2018年5月,欧盟开始实施《通用数据保护条例》(GDPR)。GDPR给予数据主体广泛权力:第一,被遗忘权,指数据主体有权要求数据控制者删除其个人数据,以避免个人数据被传播。第二,可携带权,指数据主体有权向数据控制者索取本人数据并自主决定用途。第三,数据主体在自愿、基于特定目的且在与数据控制者地位平衡等情况下,授权数据控制者处理个人数据,但授权在法律上不具备永久效力,可随时撤回。第四,特殊类别的个人数据的处理条件,比如医疗数据。

GDPR还提高了对数据控制者的要求:第一,企业作为数据控制者必须在事前数据采集和事后数据泄露两个环节履行明确的告知义务。第二,数据采集与数据使用目标的一一对应原则,以及数据采集(范围、数量、时间、接触主体等)最小化原则。第三,个人数据跨境传输条件。总的来说,GDPR引入了数据产权的精细维度,包括被遗忘权、可携带权、有条件授权和最小化采集原则等,建立了数据管理的制度范式。这些做法被欧盟以外的很多国家和地区所采纳。2019年5月,我国网信办发布《数据安全管理办法(征求意见稿)》。2019年12月,国家网信办、工信部、公安部和市场监管总局四部门联合印发《App违法违规收集使用个人信息行为认定方法》。

个人数据管理的核心问题隐私保护。隐私涉及个人与他人、私有与公开的边界,是个人尊严、自主和自由的重要方面(Acquisti et al., 2016)。隐私不排斥共享个人信息,而是要有效控制共享过程,在保护和共享个人数据之间做好平衡。对个人数据,控制权和隐私保护的重要性超过所有权。这一点在GDPR中有体现。

四、小结

本文对数据要素的特征、价值和配置机制进行了初步研究,主要结论如下。

数据作为信息科学中一个基本但复杂的概念,对其的理解离不开对信息和知识等相关概念的辨析,而DIKW模型为此提供了一个合适的分析框架。根据DIKW模型,智慧、知识、信息和数据之间依次存在从窄口径到宽口径的从属关系。数据是观察的产物。数据经过认知过程处理后得到信息,给出关于谁(Who)、什么(What)、何处(Where)和何时(When)等问题的答案。知识是对数据和信息的应用,给出关于如何做(How)的答案。智慧则有鲜明的价值判断意味,在很多场合与对未来的预测和价值取向有关。

数据有多个维度的技术特征,但数据的经济学特征更复杂。数据可以产生价值,因此具有资产属性。数据兼有商品和服务的特征。很多数据属于公共产品,可以由任何人为任何目的而自由使用、改造和分享。因为大部分数据是非竞争性的,属于私人产品和公共资源的数据较少。数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。因此,把数据比喻成石油,不如把数据比喻成阳光更为合适。

数据经过处理并与其他数据整合后,再经分析形成可行动的洞见,最终由行动产生价值。数据价值在微观层面体现为对使用者效用的提高,在宏观层面体现为从数据中提炼出的信息、知识和智慧对全要素生产率的提高。然而,数据价值缺乏客观计量标准,主要有三方面原因:一是同样数据对不同人的价值可以大相径庭;二是数据价值随时间变化;三是数据会产生外部性。

数据价值的计量包括绝对估值和相对估值。数据绝对估值比较难,没有公认方法。目前行业主要使用成本法、收入法、市场法和问卷测试法,但都有缺陷。数据相对估值是给定一组数据以及一个共同的任务,评估每组数据对完成该任务的贡献。与绝对估值相比,相对估值要简单一些。针对定量的数据分析任务,可以使用Shapley值进行相对估值。

数据有多种类型和不同特征,产生了不同的配置机制。这些配置机制都致力于数据要素配置中的信息不对称和非完全契约问题。本文主要讨论了四种配置机制。

第一,作为公共产品的数据,一般由政府部门利用税收收入提供。政府部门应该在不涉密的前提下,尽可能向社会和市场开放政府数据,这样才能最大化政府数据的公共价值。

第二,作为准公共产品的数据如果在所有权上较为清晰,并且具有排他性,可以采取俱乐部产品式的付费模式、开放银行模式以及数据信托模式

第三,在互联网经济中,很多个人数据的所有权很难界定清楚,现实中常见PIK(Pay-in-kind)模式,本质上是用户用自己的注意力和个人数据换取资讯和社交服务,但PIK模式存在很多弊端。

第四,很多数据因为有非排他性或非竞争性,不适合参与市场交易。换言之,市场化配置不等于市场交易模式。现实中并不存在一个集中化、流动性好的数据要素市场。数据的点对点交易(类似场外交易)尽管一直在发生,但很不透明且非标准化,并且非法数据交易是一个不容忽视的问题。

数据产权界定是数据要素有效配置的基础。可验证计算、同态加密和安全多方计算等密码学技术支持数据确权,使得在不影响数据所有权的前提下交易数据使用权成为可能,从而构建数据交易的产权基础。区块链技术用于数据存证和使用授权,也在数据产权界定中发挥重大作用。但即便如此,基于密码学的数据要素市场也不同于传统市场,不会采取“对同一商品,多个买方竞价,价高者得”的要素配置模式。

除了技术以外,数据产权还可以通过制度设计来界定。GDPR引入了数据产权的精细维度,包括被遗忘权、可携带权、有条件授权和最小化采集原则等,建立了数据管理的制度范式。这些做法被欧盟以外的很多国家和地区所采纳。个人数据管理的核心问题隐私保护。对个人数据,控制权和隐私保护的重要性超过所有权。

参考文献

1、Ackoff, R.L., 1989, “From Data to Wisdom”, Journal of Applied System Analysis, 16: 3-9.

2、Acquisti, A., C. Taylor, and L. Wagman, 2016, “The Economics of Privacy”, Journal of Economic Literature, 54(2): 442-292

3、Bennett Institute for Public Policy (BIPP), 2020, The Value of Data,

https://www.bennettinstitute.cam.ac.uk/research/research-projects/valuing-data/

4、Jia R., D. Dao, B. Wang, F. Hubis, N. Hynes, N. Gurel, B. Li, C. Zhang, D. Song, and C. Spanos, 2019, “Towards Efficient Data Valuation Based on the Shapley Value”.

5、PlatON, 2018, “PlatON: A High-Efficiency Trustless Computing Network”, https://www.platon.network/static/pdf/en/PlatON_A%20High-Efficiency%20Trustless%20Computing%20Network_Whitepaper_EN.pdf

6、Rowley, J., 2007, “The Wisdom Hierarchy: Representation of the DIKW Hierarchy”, Journal of Information and Communication Science, 33(2): 163-180.

7、德勤和阿里研究院,2019,《数据资产化之路——数据资产的估值与行业实践》

8、李小加,2020,《呼吁成立“数据要素产业化联盟”》,香港交易所

9、于施洋、王建冬和郭巧敏,2020,《中国构建数据新型要素市场体系面临的挑战与对策》,《电子政务》2020年第3期

转载声明:本文 由CoinON抓取收录,观点仅代表作者本人,不代表CoinON资讯立场,CoinON不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。若以此作为投资依据,请自行承担全部责任。

声明:图文来源于网络,如有侵权请联系删除

风险提示:投资有风险,入市需谨慎。本资讯不作为投资理财建议。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 2020年5月6日 下午1:27
下一篇 2020年5月6日 下午2:28

相关推荐

邹传伟:对数据要素的特征、价值和配置机制的初步研究

星期三 2020-05-06 13:27:46

2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术等传统要素并列为要素之一,提出要加快培育数据要素市场,包括推进政府数据开放共享、提升社会数据资源价值和加强数据资源整合和安全保护等三方面工作。

数据作为要素是一个新命题,有大量前沿问题需要研究。在文献中,相关问题归属于数据经济(Data Economy)范畴。数据经济指数据收集、组织、使用、分享、流转和管理等活动组成的经济生态。

德勤和阿里研究院(2019)认为数据资产不完全符合会计准则中对于“资产”及“无形资产”的定义。剑桥大学研究报告《数据的价值》(BIPP,2020)对数据经济的理论、实践和政策问题进行了全面综述。李小加(2020)提出组建数据要素产业化联盟,梳理数据经济中八方面的重要问题。于施洋等(2020)分析了我国深化数据要素市场化配置面临的挑战,提出搭建公共平台、完善市场条件、研究配套政策、推动协同联动、优化市场结构等方面政策建议。但从国内外研究来看,数据经济是一个方兴未艾的领域,而且学术研究略显落后于行业和监管实践,有不少新概念、新问题和新机制值得梳理。

本文对以下三个问题进行了初步探讨:第一,数据要素有哪些重要的技术和经济学特征?第二,数据价值的内涵和计量方法;第三,数据要素的配置机制

一、数据要素的技术和经济学特征

(一)数据的技术特征

什么是数据?与通常认为的不同,这是信息科学中一个基本但复杂的问题,没有显而易见的答案。对数据的理解离不开对信息和知识等相关概念的辨析。Ackoff(1989)提出了DIKW模型(图1),D指数据(Data),I指信息(Information),K指知识(Knowledge),W指智慧(Wisdom)。DIKW模型在信息管理、信息系统和知识管理等领域有广泛使用,不同研究者从不同角度给出不同解释,Rowley(2007)进行了综述。本文不深入讨论DIKW模型,只在Rowley(2007)的基础上梳理数据的技术特征中与经济学分析最相关的部分。

经济

图1:DIKW模型

第一,智慧、知识、信息和数据之间依次存在从窄口径到宽口径的从属关系。从数据中可以提取出信息,从信息中可以总结出知识,从知识中可以升华出智慧。这些提取、总结和升华都不是简单的机械过程,依靠不同方法论和额外输入(比如应用场景和相关学科的背景知识)。因此,信息、知识和智慧尽管也属于数据的范畴,却是“更高阶”的数据。

第二,数据是观察的产物。观察对象包括物体、个人、机构、事件以及它们所处环境等。观察是基于一系列视角、方法和工具进行的,并伴随着相应的符号表达系统,比如度量衡单位。数据就是用这些符号表达系统记录观察对象特征和行为的产物。数据可以采取文字、数字、图表、声音和视频等形式。在存在形态上,数据有数字化的(Digital),也有非数字化的(比如记录在纸上)。但随着信息和通讯技术(ICT)的发展,越来越多数据被数字化,在底层都表示成二进制。

第三,数据经过认知过程处理后得到信息,给出关于谁(Who)、什么(What)、何处(Where)和何时(When)等问题的答案。信息是有组织和结构化的数据,与特定目标和情景有关,因此有价值和意义。比如,根据信息论,信息能削减用熵度量的不确定性。

第四,与数据和信息相比,知识和智慧更难被准确定义。知识是对数据和信息的应用,给出关于如何做(How)的答案。智慧则有鲜明的价值判断意味,在很多场合与对未来的预测和价值取向有关。

接下来用计量经济学为例说明DIKW模型。计量经济学是经济学实证分析的主要方法。实证分析基于观察,回答“是什么”的问题。在计量经济学中,观察的对象通常被称为样本,可以是个人、机构、地区甚至国家。从不同角度观察样本,对应计量经济学中的变量概念。从不同角度观察一组样本得到横截面数据,而在不同时点上持续从同一角度观察得到时间序列数据,横截面数据和时间序列数据的综合则是面板数据。这些类型的数据都是结构化数据。随着越来越多的数据被数字化,以及人工智能和大数据分析方法的发展,半结构化数据和非结构化数据在经济学中也有越来越多应用,比如互联网浏览、点击等数据。

计量经济学从数据中提炼信息,主要包括:一是发现数据中隐含的规律和模式;二是估计模型;三是检验假说。这对应着DIKW模型的信息层次。比如,对数据做描述统计,计算变量的平均值、标准差以及变量之间的相关系数等,是从数据中提炼信息的最简单方式之一。计量经济学经常假设数据遵循数据生成过程(Data Generation Process),但数据生成过程的模型形式和参数取值未知,并且随机干扰会为观察带来误差。计量经济学根据观察到的数据,估计数据生成过程,再据此检验假说。人工智能和大数据分析方法对数据的处理更为灵活,分为预测型分析和描述型分析。预测型分析是根据某些变量的取值,预测另外一些变量的取值。描述型分析是导出、概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。两类分析体现为分类、回归、关联分析、聚类分析、推荐系统和异常检测等具体方法。

根据计量经济学分析结果提出政策建议,对应着DIKW模型的知识层次。很多政策研究属于规范分析,回答“应该是什么”的问题。经济学关于经济均衡、经济增长、宏观调控、价格机制、微观激励和风险定价等方面的洞见,对应着DIKW模型的智慧层次。

一般而言,数据的技术特征主要包括以下维度:

  • 数据的样本分布、时间覆盖和变量/属性/字段等。
  • 数据容量,比如样本数、变量数、时间序列长度和占用的存储空间等。
  • 数据质量,比如样本是否有代表性,数据是否符合事先定义的规范和标准,观察的颗粒度、精度和误差,以及数据完整性(比如是否有数据缺失情况)。
  • 数据的时效性。鉴于观察对象的特征和行为可以随时间变化,数据是否还能反映观察对象的情况?
  • 数据来源。有些数据来自第一手观察,有些数据由第一手观察者提供,还有些数据从其它数据推导而来。数据可以来自受控实验和抽样调查,也可以来自互联网、社交网络、物联网和工业互联网等。数据可以由人产生,也可以由机器产生。数据可以来自线上,也可以来自线下。
  • 数据类型,包括是数字化还是非数字化的,是结构化还是非结构化的,以及存在形式(文字、数字、图表、声音和视频等)。
  • 不同数据集之间的互操作性和可联接性,比如样本ID是否统一,变量定义是否一致,以及数据单位是否一致等。
  • 是否为个人数据。个人数据在隐私保护上有很多特殊性,需要专门讨论。

(二)数据的经济学特征

与数据的技术特征相比,数据的经济学特征要复杂得多。数据可以产生价值(见后文),因此具有资产属性。数据兼有商品和服务的特征。一方面,数据可存储、可转移,类似商品。数据可积累,在物理上不会消减或腐化。另一方面,很多数据是无形的,类似服务。数据作为资产具有很多特殊性,可以从表1的视角分析:

经济

表1:公共产品、准公共产品和私人产品的分类

非竞争性指的是,当一个人消费某种产品时,不会减少或限制其他人对该产品的消费。换言之,该产品每增加一个消费者,所带来的边际成本等于0。大部分数据可以被重复使用,重复使用不会降低数据质量或容量,并且可以被不同人在同一时间使用,因此具有非竞争性。

非排他性指的是,当某人在付费消费某种产品时,不能排除其他没有付费的人消费这一产品,或者排除的成本很高。很多数据是非排他性的,比如天气预报数据。但通过技术和制度设计,有些类型的数据有排他性。比如,一些媒体信息终端采取付费形式,只有付费会员才可以阅读。

根据表1,很多数据属于公共产品,可以由任何人为任何目的而自由使用、改造和分享。比如,政府发布的经济统计数据和天气预报数据。一些数据是俱乐部产品,属于准公共产品,比如前面提到的收费媒体信息终端。大部分数据是非竞争性的,因此属于私人产品和公共资源的数据较少。

数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。数据容易在未经合理授权的情况下被收集、存储、复制、传播、汇集和加工,并且数据汇集和加工伴随着新数据的产生。这使得数据的所有权很难界定清楚,也很难被有效保护。比如,在互联网经济中,互联网平台记录下用户的点击、浏览和购物历史等,是非常有价值的数据。这些数据尽管描述了用户的特征和行为,但不像用户个人身份信息那样由用户对外提供,很难说由用户所有。互联网平台尽管记录和存储这些数据,但这些数据与用户的隐私和利益息息相关,很难任由互联网平台在用户不知情的情况下使用和处置这些数据,所以互联网平台也不拥有完整产权。

因此,需要通过制度设计和密码学技术等精巧界定用户作为数据主体以及互联网平台作为数据控制者的权利,这会为他们之间的经济利益关系产生显著影响。

很多文章把数据比喻成新经济的石油。这个比喻实际上不准确。石油是竞争性和排他性的,产权可以清楚界定,作为私人产品形成了现货和期货等复杂的市场交易模式。很多数据难以清晰界定所有权,作为公共产品或准公共产品难以有效参与市场交易。因此,把数据比喻成阳光更为合适。

二、数据价值的内涵和计量

 

(一)数据价值的内涵

根据DIKW模型,从数据中提炼出信息、知识和智慧,这隐含着数据价值链的概念。原始数据经过处理并与其他数据整合后,再经分析形成可行动的洞见,最终由行动产生价值。

数据价值可以从微观和宏观两个层面理解。在微观层面,信息、知识和智慧既可以满足使用者的好奇心(即作为最终产品),更可以提高使用者的认知,帮助他们更好做出决策(即作为中间产品),最终效果都是提高他们的效用。数据对使用者效用的提高,就反映了数据价值。在宏观层面,信息、知识和智慧有助于提高全要素生产率,发挥乘数作用,这也是数据价值的体现。本文主要讨论微观层面的数据价值,有以下关键特征。

1.同样数据对不同人的价值可以大相径庭

第一,不同人的分析方法不一样,从同样数据中提炼出的信息、知识和智慧可以相差很大。比如,在科学史上,很多科学家深入研究一些大众习以为常的现象并做出了重大发现。重物落地之于牛顿,闪电之于富兰克林,海水的蓝色之于拉曼,与它们对大众的价值是完全不一样的。再比如,在经济学中,不同的经济学家对同样的经济数据经常做出完全不一样的解读。

第二,不同人所处的场景和面临的问题不一样,同一数据对他们起的作用也不一样。同一数据,对一些人可能是垃圾,对另一些人则可能是宝藏。比如,考古发现对历史研究者的价值很大,但对金融投资者则很可能没有价值。比如,另类数据(Alternative Data)包括个人产生数据、商业过程数据和传感器数据等。这些数据能帮助投资者做投资决策,但对非金融投资者则没有太大价值。不同的人可以在不同时间维度上使用数据,比如有评估过去的,有分析当前的,有预测未来的,也有做回溯测试的。使用目的不同,对数据的要求不一样,同一数据就意味着不同价值。

第三,不同制度和政策框架对数据使用的限定不一,也会影响数据价值。换言之,数据价值内生于制度和政策。比如,不同国家对个人数据的保护程度不一,个人数据被收集和使用的情况以及产生的价值在国家之间有很大差异。我国排名靠前的互联网平台基于用户行为数据推出了在线信贷产品,这在其他国家则不常见。互联网平台获得用户数据后,如果不恰当保护和使用,不尊重用户隐私,将会影响其品牌形象和用户信任,对数据价值和公司价值都会带来负面影响。2020年4月,美国联邦法院批准Facebook与美国联邦贸易委员会就剑桥分析丑闻的50亿美元和解协议。

2.数据价值随时间变化

第一,数据有时效性。很多数据在经过一段时间后,因为不能很好反映观察对象的当前情况,价值会下降。这种现象称为数据折旧。数据折旧在金融市场中表现得非常明显。比如,一个新消息在刚发布时可以对证券价格产生很大影响,但等到证券价格反映这个消息后,它对金融投资的价值就急剧降到0。在DIKW模型中,将数据提炼为信息、知识和智慧,并且提炼层次越高,就越能抵抗数据折旧。

第二,数据有期权价值。新机会和新技术会让已有数据产生新价值。在很多场合中,收集数据不仅是为了当下的需求,也有助于提升未来的福利。

3.数据会产生外部性

第一,数据对个人的价值称为私人价值,数据对社会的价值称为公共价值。数据如果具有非排他性或非竞争性,就会产生外部性,并造成私人价值与公共价值之间的差异。这种外部性可正可负,没有定论。

第二,数据与数据结合的价值,可以不同于它们各自价值之和,是另一种外部性。但数据聚合是否增加价值,也没有定论。一方面,可能存在规模报酬递增情形,比如更多数据更好地揭示了隐含的规律和趋势。另一方面,可能存在规模报酬递减情形,比如更多数据引入更多噪声。但总的来说,数据容量越大,数据价值不一定越高,数据内容也很重要。比如,1小时的视频监控数据,有价值数据可能仅有1-2秒。

(二)数据价值的计量

1.绝对估值

鉴于数据价值的三个关键特征,数据的绝对估值比较难,没有公认方法。目前行业实践中有几种主要方法,但都有缺陷(BIPP,2020;德勤和阿里研究院,2019)。

第一,成本法,也就是将收集、存储和分析数据的成本作为数据估值基准。这些成本有软件和硬件方面的,也有知识产权和人力资源方面的,还有因安全事件、敏感信息丢失或名誉损失而造成的或有成本。数据收集和分析一般具有高固定成本、低边际成本特征,从而有规模效应。成本法尽管便于实施,但很难考虑同样数据对不同人、在不同时间点以及与其他数据组合时的价值差异。另外,德勤和阿里研究院(2019)指出,一些数据为企业生产经营的附加产物,获取成本通常难以从业务中划分出来而难以可靠计量。显然,数据价值不一定高于成本,说明不是所有数据都值得收集、存储和分析。

第二,收入法,也就是评估数据的社会和经济影响,预测由此产生的未来现金流,再将未来现金流折现到当前。收入法在逻辑上类似公司估值中的折现现金流法,能考虑数据价值的三个关键特征,在理论上比较完善,但实施中则面临很多障碍。一是对数据的社会和经济影响建模难度很大。二是数据的期权价值如何评估。实物期权估值法是一个可选方法,但并不完美。

第三,市场法,也就是以数据的市场价格为基准,评估不在市场上的数据的价值。市场法类似股票市场的市盈率和市净率估值方法。市场法的不足在于,很多数据是非排他性的或非竞争性的,很难参与市场交易。目前,数据要素市场有一些尝试,但市场厚度和流动性都不够,价格发现功能不健全。另外,一些公司兼并收购价格着包含着对数据的估值,但不易分离出来。

第四,问卷测试法。这个方法主要针对个人数据,通过问卷测试个人愿意收多少钱以出让自己的数据,或愿意花多少钱保护自己的数据,从而评估个人数据的价值。这个方法应用面非常窄,实施成本较高。

2.相对估值

数据相对估值目标是,给定一组数据以及一个共同的任务,评估每组数据对完成该任务的贡献。与绝对估值相比,相对估值要简单一些,特别针对定量的数据分析任务。

在数据相对估值中,常见数据分组方法包括:一是变量/字段一样,但属于不同的观察样本;二是同样的观察样本,但变量/字段不同。对常见预测性任务和描述性任务,统计学和数据科学建立了量化评估指标。比如,对预测任务,需做样本外检验,评估预测误差。在预测变量是离散型时,常用准确率、错误率以及操作特征(Receiver Operating Characteristic,ROC)曲线下方面积等指标。在预测变量是连续型时,常用标准误差。对描述任务,需用样本数据评估模型拟合效果,线性模型一般用R平方,非线性模型一般用似然函数(需对干扰项分布做出假设)。

经济

使用Shapley值进行数据相对估值遵循以下步骤。第一步:定义数据集合及其元素。第二步:定义拟完成的任务。第三步:选择完成任务所使用的模型及评估指标。第四步:对数据集合中元素形成的每一个数据子集(经济〡N〡个元素,意味着2〡N〡个可能的数据子集),运行模型并获得评估结果。第五步:根据Shapley值计算每个元素对完成任务的贡献。此方法的主要不足是,随着数据集合的元素数量上升,计算量将指数上升。主要优点是符合直觉,容易计算,而且源自经济学的长期研究。Jia et al. (2019)讨论了如何优化使用Shapley值进行数据相对估值的计算过程。

数据相对估值说明,同一数据在用于不同任务,使用不同分析方法,或与不同数据组合时,体现出的价值是不同的。特别是,偏离数据集合“主流”的数据,在相对估值上可能比靠近数据集合“主流”的数据高,这显示了“异常值”(Outlier)的价值。

 

三、数据要素的配置机制

 

在现实中,数据有多种类型和不同特征,相应产生了不同的配置机制。因为很多数据不适合参与市场交易,很多配置机制不属于市场交易模式。换言之,市场化配置不等于市场交易模式。

这些机制都致力于解决数据要素配置中的两个突出问题。第一,信息不对称。数据要素配置机制涉及多个利益不一致的参与方。比如,数据主体往往不清楚自己数据在何时、因何目标或有何后果而被收集。数据生产者不清楚数据主体是否选择性披露数据,以及在知道自己的数据被收集时是否会有针对性地调整行为,也不清楚生产出的数据对不同数据使用者的价值。数据使用者在事前很难完全了解数据对自己的价值。比如,数据相对估值就是在事后进行的。

第二,非完全契约。数据要素配置机制都可以表示成一系列契约的组合。但数据应用有丰富场景,数据价值链有多个环节,数据价值缺乏客观计量标准,这些因素使得数据要素配置机制很难在事前覆盖事后所有可能出现的情况。这既会影响数据主体分享数据以及数据生产者生产数据的激励,也会影响数据价值在数据价值链中不同贡献者之间的合理分配。

接下来,按照数据的经济学特征以及应用场景,讨论有代表性的数据要素配置机制。

(一)作为公共产品的数据

数据作为公共产品时,由私人部门提供会有投资不足和供给不足的问题,一般由政府部门利用税收收入提供。政府部门的数据开放和共享项目可以在这个框架下理解。政府部门应该在不涉密的前提下,尽可能向社会和市场开放政府数据,这样才能最大化政府数据的公共价值。

2009年,美国联邦政府推出数据开放门户网站Data.gov,为之前分散在联邦政府不同机构的网站上数据统一提供托管平台。2019年,美国《开放政府数据法案》要求,除涉及国家安全和其他特殊原因的数据以外,联邦政府应该在线发布它们拥有的数据,并且这些公开数据采取标准化、机器可读的形式。

2016年以来,我国颁布《政务信息资源共享管理暂行办法》、《公共信息资源开放试点工作方案》等一系列文件,开启政务数据共享开放进程。《关于构建更加完善的要素市场化配置体制机制的意见》提出的第一个工作方向就是推进政府数据开放共享。

(二)作为准公共产品的数据

作为准公共产品的数据如果在所有权上较为清晰,并且具有排他性,有以下三种主要的配置机制。

第一,作为俱乐部产品的数据,可以采取付费订购模式,比如收费媒体信息终端。

第二,开放银行模式。银行通过应用程序界面(Application Programming Interface,API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。银行既限定哪些用户数据可开放,也限定向哪些机构开放。这实际上是部分实现用户数据的可携带性。

第三,数据信托模式。根据BIPP(2020)的介绍,数据信托可以采取不同形式,比如法律信托、契约、公司以及公共和社区信托等。数据信托的主要目标包括:一是使数据可被共享;二是促进公共利益以及数据分享者的私人利益;三是尊重那些对数据有法律权利的人的利益;四是确保数据以合乎伦理和数据信托规则的方式共享。

(三)互联网平台的PIK(Pay-in-kind)模式

前面已提到,在互联网经济中,如果个人数据不是由用户对外提供,而是来自互联网平台对用户特征和行为的观察和记录,那么所有权就很难界定清楚。现实中,互联网平台经常为用户提供免费资讯和社交服务,目标是扩大用户量,并获得用户的注意力和个人数据(比如用户喜好、消费特征和社会联系等)。在这个模式中,可以认为是用户用自己的注意力和个人数据换取资讯和社交服务,因此被称为PIK模式(图2)。互联网平台一方面是通过广告收入变现用户流量,另一方面基于用户个人数据进行精准营销和开发信贷产品等。

经济

图2:互联网平台的PIK模式

PIK模式主要有三个弊端:第一,互联网平台与用户之间地位不平等,容易在未经用户授权的情况下收集用户数据,或过度收集用户数据,或把从甲业务中收集到的个人数据用于乙业务,从而造成隐私侵犯和数据滥用问题。第二,互联网平台如果形成捕获性生态,会锁定用户,并在事实上控制用户数据。用户很难将自己数据开放给或迁移到互联网平台的竞争对手。互联网平台通过数据垄断在PIK模式下,数据控制者(互联网平台)相对数据主体(用户)处于主导地位,并且数据控制者往往也是数据使用者,而数据主体对自己数据缺乏控制,在数据产权上有很多模糊不清之处。如何纠正PIK模式的弊端,是个人数据管理中的一个核心问题。

(四)数据要素市场

很多数据因为有非排他性或非竞争性,参与市场交易都面临限制。另一方面,非排他性或非竞争性造成的外部性,使得数据的私人价值与公共价值之间有差异,市场交易不一定能实现数据的最大社会价值。

在现实中,因为数据类型和特征的多样性,以及数据价值缺乏客观计量标准,目前并不存在一个集中化、流动性好的数据要素市场。但数据的点对点交易(类似场外交易)一直在发生,比如另类数据市场。这个市场中存在大量的另类数据提供商。它们对数据的处理程度从浅到深大致可分为原始数据提供者、轻处理数据提供者和信号提供者。这个市场已发展出咨询中介、数据聚合商和技术支持中介等,作为连接数据买方(主要是投资基金)和数据提供方之间的桥梁。其中,咨询中介为买方提供关于另类数据购买、处理及相关法律事宜的咨询,以及数据供应商信息。数据聚合商提供集成服务,买方只需和它们协商即可,无需进入市场与分散的数据提供商打交道。技术支持中介为买方提供技术咨询,包括数据库和建模等。

可见,另类数据市场发展已很完善,形成了丰富的分工合作关系,但这个市场仍很不透明且非标准化。这是目前数据交易面临的普遍问题。更不容忽视的是非法数据交易,比如交易个人隐私数据的“数据黑市”和“数据黑产”。2019年以来,我国对“数据黑产”开展了集中整顿。

如何建立合规有效的数据要素市场?一个可行选项是使用密码学技术,包括可验证计算(Verifiable computing)、同态加密(Homomorphic encryption)和安全多方计算(Secure multi-party computation)等(PlatON,2018)。

对复杂的计算任务,可验证计算会生成一个简短证明。只要验证这个简短证明,就能判断计算任务是否被准确执行,不需要重复执行计算任务。在同态加密和安全多方计算下,对外提供数据时,采取密文而非明文形式,从而使数据具备排他性。这些密码学技术支持数据确权,使得在不影响数据所有权的前提下交易数据使用权成为可能,从而构建数据交易的产权基础,并影响数据主体和数据控制者的经济利益关系。区块链技术用于数据存证和使用授权,也在数据产权界定中发挥重大作用。后文将讨论,除了技术以外,数据产权界定也可以通过制度设计来实施。

但即便如此,基于密码学的数据要素市场也不同于传统市场。首先,同一数据在加密后可以同时向多方提供,因此仍然是非竞争性的,除非数据使用者与数据控制者之间签署保密协议,要求后者不得再将数据提供给其他人使用,或者数据有很强时效性,一经使用后很快失去价值。换言之,数据很难成为私人产品,从而很难像私人产品那样参与市场交易。其次,同一数据对不同人的价值可以差别很大。这使得在基于密码学的数据使用权交易中,应用场景对数据价值的影响,可能超过了数据本身特征和内容的影响,从而很难从数据交易价格中提炼出有价值的定价信息。因此,基于密码学的数据要素市场不会采取“对同一商品,多个买方竞价,价高者得”的要素配置模式。

需要说明的是,数据要素市场不一定是简单的撮合买卖模式,可以存在其他复杂的模式。比如,Markit公司(2016年与HIS合并成HIS Markit)建立CDS(Credit Default Swap,信用违约互换)定价数据服务的模式值得研究。国际金融危机之前,CDS是纯粹的场外交易,信息披露很不完善。CDS头寸是金融机构重要的商业机密,很难与其他金融机构分享。参与CDS市场的金融机构只知道自己的CDS头寸,但不知道市场的整体情况。CDS市场没有好的指数,信息不对称程度很高。Markit公司成立于2003年,其股东包含主要的CDS做市商。这些金融机构股东把自己的CDS数据上传到Markit,Markit整合得到CDS市场数据后以收费方式对外提供,包括定价和参考数据、指数产品、估值和交易服务等。Markit的股东金融机构在不泄露自己商业机密的情况下,不仅从Markit的工作中获知CDS市场整体情况,还从Markit的业务增长中获得投资收益。Markit尽管没有对数据进行显式定价,但通过股权的利益绑定功能以及数据整合的“1+1>2”效应,解决了数据共享中的激励相容问题。这是一个复杂而巧妙的数据交易模式。我国个人征信市场的百行征信公司也可以在类似框架下理解。

(五)数据产权界定

从前面介绍的数据要素配置机制可以看出,数据产权界定是数据要素有效配置的基础。数据产权主要分为所有权和控制权。数据控制权包括谁能使用数据,如何使用数据,以及能否进一步对外分享数据等。在公司治理中,所有权和控制权是统一的——股东拥有公司,股东大会是公司的最高权力机关。但数据的所有权和控制权可以分离,特别是对所有权不清晰的个人数据。数据产权可以通过技术来界定,比如可验证计算、同态加密和安全多方计算等密码学技术。数据产权还可以通过制度设计来界定。

2018年5月,欧盟开始实施《通用数据保护条例》(GDPR)。GDPR给予数据主体广泛权力:第一,被遗忘权,指数据主体有权要求数据控制者删除其个人数据,以避免个人数据被传播。第二,可携带权,指数据主体有权向数据控制者索取本人数据并自主决定用途。第三,数据主体在自愿、基于特定目的且在与数据控制者地位平衡等情况下,授权数据控制者处理个人数据,但授权在法律上不具备永久效力,可随时撤回。第四,特殊类别的个人数据的处理条件,比如医疗数据。

GDPR还提高了对数据控制者的要求:第一,企业作为数据控制者必须在事前数据采集和事后数据泄露两个环节履行明确的告知义务。第二,数据采集与数据使用目标的一一对应原则,以及数据采集(范围、数量、时间、接触主体等)最小化原则。第三,个人数据跨境传输条件。总的来说,GDPR引入了数据产权的精细维度,包括被遗忘权、可携带权、有条件授权和最小化采集原则等,建立了数据管理的制度范式。这些做法被欧盟以外的很多国家和地区所采纳。2019年5月,我国网信办发布《数据安全管理办法(征求意见稿)》。2019年12月,国家网信办、工信部、公安部和市场监管总局四部门联合印发《App违法违规收集使用个人信息行为认定方法》。

个人数据管理的核心问题隐私保护。隐私涉及个人与他人、私有与公开的边界,是个人尊严、自主和自由的重要方面(Acquisti et al., 2016)。隐私不排斥共享个人信息,而是要有效控制共享过程,在保护和共享个人数据之间做好平衡。对个人数据,控制权和隐私保护的重要性超过所有权。这一点在GDPR中有体现。

四、小结

本文对数据要素的特征、价值和配置机制进行了初步研究,主要结论如下。

数据作为信息科学中一个基本但复杂的概念,对其的理解离不开对信息和知识等相关概念的辨析,而DIKW模型为此提供了一个合适的分析框架。根据DIKW模型,智慧、知识、信息和数据之间依次存在从窄口径到宽口径的从属关系。数据是观察的产物。数据经过认知过程处理后得到信息,给出关于谁(Who)、什么(What)、何处(Where)和何时(When)等问题的答案。知识是对数据和信息的应用,给出关于如何做(How)的答案。智慧则有鲜明的价值判断意味,在很多场合与对未来的预测和价值取向有关。

数据有多个维度的技术特征,但数据的经济学特征更复杂。数据可以产生价值,因此具有资产属性。数据兼有商品和服务的特征。很多数据属于公共产品,可以由任何人为任何目的而自由使用、改造和分享。因为大部分数据是非竞争性的,属于私人产品和公共资源的数据较少。数据的所有权不管在法律上还是在实践中都是一个复杂问题,特别对个人数据。因此,把数据比喻成石油,不如把数据比喻成阳光更为合适。

数据经过处理并与其他数据整合后,再经分析形成可行动的洞见,最终由行动产生价值。数据价值在微观层面体现为对使用者效用的提高,在宏观层面体现为从数据中提炼出的信息、知识和智慧对全要素生产率的提高。然而,数据价值缺乏客观计量标准,主要有三方面原因:一是同样数据对不同人的价值可以大相径庭;二是数据价值随时间变化;三是数据会产生外部性。

数据价值的计量包括绝对估值和相对估值。数据绝对估值比较难,没有公认方法。目前行业主要使用成本法、收入法、市场法和问卷测试法,但都有缺陷。数据相对估值是给定一组数据以及一个共同的任务,评估每组数据对完成该任务的贡献。与绝对估值相比,相对估值要简单一些。针对定量的数据分析任务,可以使用Shapley值进行相对估值。

数据有多种类型和不同特征,产生了不同的配置机制。这些配置机制都致力于数据要素配置中的信息不对称和非完全契约问题。本文主要讨论了四种配置机制。

第一,作为公共产品的数据,一般由政府部门利用税收收入提供。政府部门应该在不涉密的前提下,尽可能向社会和市场开放政府数据,这样才能最大化政府数据的公共价值。

第二,作为准公共产品的数据如果在所有权上较为清晰,并且具有排他性,可以采取俱乐部产品式的付费模式、开放银行模式以及数据信托模式

第三,在互联网经济中,很多个人数据的所有权很难界定清楚,现实中常见PIK(Pay-in-kind)模式,本质上是用户用自己的注意力和个人数据换取资讯和社交服务,但PIK模式存在很多弊端。

第四,很多数据因为有非排他性或非竞争性,不适合参与市场交易。换言之,市场化配置不等于市场交易模式。现实中并不存在一个集中化、流动性好的数据要素市场。数据的点对点交易(类似场外交易)尽管一直在发生,但很不透明且非标准化,并且非法数据交易是一个不容忽视的问题。

数据产权界定是数据要素有效配置的基础。可验证计算、同态加密和安全多方计算等密码学技术支持数据确权,使得在不影响数据所有权的前提下交易数据使用权成为可能,从而构建数据交易的产权基础。区块链技术用于数据存证和使用授权,也在数据产权界定中发挥重大作用。但即便如此,基于密码学的数据要素市场也不同于传统市场,不会采取“对同一商品,多个买方竞价,价高者得”的要素配置模式。

除了技术以外,数据产权还可以通过制度设计来界定。GDPR引入了数据产权的精细维度,包括被遗忘权、可携带权、有条件授权和最小化采集原则等,建立了数据管理的制度范式。这些做法被欧盟以外的很多国家和地区所采纳。个人数据管理的核心问题隐私保护。对个人数据,控制权和隐私保护的重要性超过所有权。

参考文献

1、Ackoff, R.L., 1989, “From Data to Wisdom”, Journal of Applied System Analysis, 16: 3-9.

2、Acquisti, A., C. Taylor, and L. Wagman, 2016, “The Economics of Privacy”, Journal of Economic Literature, 54(2): 442-292

3、Bennett Institute for Public Policy (BIPP), 2020, The Value of Data,

https://www.bennettinstitute.cam.ac.uk/research/research-projects/valuing-data/

4、Jia R., D. Dao, B. Wang, F. Hubis, N. Hynes, N. Gurel, B. Li, C. Zhang, D. Song, and C. Spanos, 2019, “Towards Efficient Data Valuation Based on the Shapley Value”.

5、PlatON, 2018, “PlatON: A High-Efficiency Trustless Computing Network”, https://www.platon.network/static/pdf/en/PlatON_A%20High-Efficiency%20Trustless%20Computing%20Network_Whitepaper_EN.pdf

6、Rowley, J., 2007, “The Wisdom Hierarchy: Representation of the DIKW Hierarchy”, Journal of Information and Communication Science, 33(2): 163-180.

7、德勤和阿里研究院,2019,《数据资产化之路——数据资产的估值与行业实践》

8、李小加,2020,《呼吁成立“数据要素产业化联盟”》,香港交易所

9、于施洋、王建冬和郭巧敏,2020,《中国构建数据新型要素市场体系面临的挑战与对策》,《电子政务》2020年第3期