首要问题是政府数据的开放
财新记者:如您所说,大数据的发展尚处于初级阶段,那么,在这一发展阶段存在哪些问题?
何宝宏:大数据归根到底要先有海量的数据,现在关键的问题在数据源上。
首要问题是数据的开放。实际上,政府是最主要的数据源,如果政府的数据不开放,大数据的市场就会相对狭隘,很多创新的应用也将无法实现。至于企业,尤其是国内传统的大国企,部门与部门之间的数据尚且不能完全透明、开放,要求它们对外开放数据就相当困难。
所以,在大数据发展的初级阶段,我们看到的大部分是“私有大数据”,譬如交通部门掌握交通数据、银行部门掌握银行数据、电信部门掌握电信数据,等等,彼此之间却不能互通共享,形成一个个“数据孤岛”。
除了开放数据,数据源的标准化、数据源的质量控制等也面临着困难,业界也在探讨解决之道。
在讨论数据源的难题之际,随之而来的还有隐私泄露、买卖数据等一系列数据安全问题。国家工信部一再强调保护个人信息安全,前不久也颁布了《电信和互联网用户个人信息保护规定》。但是,如何在大数据时代更大范围地保障信息安全,没有人知道,因为现在的数据大多还不是相互开放的,连都还没有连起来。
财新记者:针对大数据,我国政府部门出台了哪些政策予以引导?国外是否有相关政策可供参考?
何宝宏:大数据是新兴事物,至今还没有针对性的政策颁布,但在政府部门的宏观政策譬如“十二五”规划里,已经多次提及海量数据处理问题。
实际上,开放政府数据无疑是对大数据的最大政策支持,只是这是一个渐进的过程,实现真正的数据开放还需要很长的时间。
在国外,数据开放也是令人头痛的事情。不过,美国政府走在了前面,美国总统奥巴马已经明确要求政府信息公开,所有不涉密的信息都要以机器可读的形式开放给公众,譬如气象数据、医院收费数据。这样的数据开放已不再止于公布一个结果,即信息公开的层面,而是公布形成这一结果的各种数据演变过程。
我们应该意识到,基于大数据的国际竞争已经悄然到来。2012年3月22日,奥巴马将大数据称为“未来的新石油”,宣布了2亿美元的大数据投资计划。可以说,美国政府已将大数据从自发的商业行为提升到国家战略的高度。竞争之下,我国政府应该会对大数据做出新的考量。
财新记者:数据开放的价值在哪里?
何宝宏:数据不联网,价值就会大打折扣。当然,通过分析单个企业的数据也能实现一些价值,但数据更大的价值在于,不同的数据源能够相互关联起来,就像20年前的计算机,不联网也可单独使用,可一旦联网,产生什么样的应用,当时根本无法预料,惟一确定的是联网之后的价值远胜于从前。
大数据也是一样,我们可以认为现在的互联网连接的是硬件设备,包括PC、手机、平板,未来互联网则是连接各种各样的数据,形成一张数据网,价值不是更大?
你可以发挥想象力,当交通部门的路况数据、银行的消费数据、电信运营商的用户位置数据以及互联网厂商的商品⋯⋯这些重叠在一起,什么样的可能性都会出现。
财新记者:从政策层面,如何保障数据开放之后可能存在的安全问题?
何宝宏:实际上,技术的进步使得网络匿名变成数学上不可能的事。只要有合理的商业和安全动机,任何形式的匿名和隐私都只是算法上的不可能。你是谁已不再重要,重要的是你身上的标签信息,例如位置、性别、年龄、兴趣、方向以及职业等。
据有关研究,20年前,可以通过“性别+邮编+出生年月日”,识别出87%的人。而大数据时代,通过分析用户4个曾经到过的位置点,就可以识别出95%的用户。大数据没有原罪,需要反省调整的不是它,而是我们自己。大数据时代需要调整我们对隐私保护的理念。比如,法律和政策不应去不断扩大“个人信息”的保护范畴,而是限制大数据应用的目的。隐私保护需要做的,是将大数据监管重心从收集环节转移到使用环节,而不是相反。
我相信,没有坏数据,只有对数据的不合理使用。我们需要开放大数据,限制对它的滥用,把人类从数字鸿沟和数字圆形监狱中解放出来,让大数据为我们带来更大的便利性、更好的安全性和更多的创新服务。