大数据火热背景下的冷思考
由陕西省西咸新区管委会主办,沣西新城管委会承办,赛迪顾问等公司协办的“2014西咸新区大数据高峰论坛”近日在西安召开。“西咸新区在国内率先‘举旗大数据’,目前已初步健全产业链,产业集聚发展成效显著,信息丝绸之路初见端倪。陕西将继续着力构建大数据创新体系,搭建产业基础平台,探索科学发展模式,提升技术服务水平,积极推进大数据规范化发展。”陕西省委常委、常务副省长、西咸新区管委会主任江泽林在论坛上的这番话体现了陕西发展大数据产业的决心和信心。
其实,除了陕西,全国很多省市均将大数据产业提到了区域发展战略高度。对此,很多媒体用“火热”来形容中国当下的大数据产业。“越是炒得火热,越是要思路清晰!”中国科学院院士徐宗本在论坛期间接受记者采访时这样评价道,而这种观点也是业内有识之士的共识。
产业门槛高
众所周知,大数据具有4V特点,即Volume(大量)、Variety(多样)、Velocity(高速)和Value(价值),其价值在业界越来越得到重视。世纪互联云事业部总裁柯文达认为,具有4V特点的大数据会产生一些令人意想不到的“化学反应”。“人类在学习的过程中,大部分的思考方式其实是线性方式,而大数据和云计算则提供了一个非线性的思考方式,可以把各个不同的领悟,各个不相关的东西组合起来成为一种有价值的决策。”柯文达表示。可以说,大数据技术让看似分文不值的“闲散”数据变得有价值,数据和石油一样变成了一种“资源”。
但是和其他产业不同,大数据产业门槛更高。徐宗本认为其原因有两方面:一方面,大数据要做的事是将无形的、杂乱无章的数据进行真正显化,因此要有很高程度的科技储备。另一方面,对于其他产业,技术相对成熟,只是需要将技术产业化。而大数据产业并不是技术已经成熟的产业,甚至可以说科学基础都还没有成型,但技术变化又如此之快,需要将基础研究、技术研究和产业化融为一体。因此,发展大数据产业,产学研一定要有效结合。
据介绍,大数据产业拥有一条从数据到价值的产业链,涵盖4大部分:一是数据获取与管理,二是数据存储与处理,三是数据分析与理解,四是结合具体领域的大数据应用。“高度多学科综合性是大数据研究的特点。”徐宗本强调。例如,数据获取与管理涉及管理、物理、电子与信息等学科;数据存储与处理涉及计算机科学;数据分析与理解数据数学与统计学;大数据应用则与各行各业相关学科关联。
那么,对于产业门槛高、具有多学科综合性的大数据,中国的技术研究是否落后于国外呢?徐宗本并不这样认为。
“任何科学研究都不是割裂的,现在所说的大数据科学研究,其实就是过去的统计学、计算数学、人工智能、数据挖掘等几个领域的延续。中国的研究和国际的研究,应该说处于同一起跑线上,发展基本是同步的。”徐宗本表示,“而且中国发展大数据产业有两大优势:第一,中国有体制优势,能够集中精力做大事,政府行政执行力强,这对大数据产业而言很重要,比如在数据共享方面,需要打破行业垄断,政府的决心起到关键作用。第二,大数据的物质基础是以互联网为载体的,而在互联网技术的应用上,中国是全球领先的。”
徐宗本强调,正是因为大数据产业门槛高,所以大家需要理性对待大数据,大数据蕴含着大机会,但需要认真选择目标、选准方向,要有技术储备,还要解决好人才培养问题。
构建超巨系统时不我待
“大数据是怎么来的?不是天上掉下来的,正是多年来信息化不断发展的结果。信息化的过程就是数据资源开发的过程。”国家信息化专家咨询委员会常务副主任周宏仁在会上谈到了大数据的本质。政府部门和企事业单位都利用互联网将自己的信息系统向部门或企事业的关联单位延伸,信息系统逐渐向大系统发展。
不过,周宏仁认为,随着互联网用户的急剧增加,各种基于互联网的应用系统,特别是电子商务和社交网络的急剧发展;物联网的快速兴起;以及数据终端种类和数量的急剧增加;移动互联网的快速发展等促使数据量出现了新的增长,也催生了超巨型信息系统(超巨系统)。所有这些看似并无关联的、数以千计、大大小小的信息系统中所包含的数据,需要另辟蹊径,另构系统,开发和利用这一类超大型的数据资源。
超巨系统与大系统的主要区别在于,它们是为了完成特定功能设计的,而实现其功能所基于的各种成员系统,无论在功能、运行、管理和地域上都是无关的,也不具有任何先验的、人为设计的特征。不仅如此,其成员系统可能是随机的、泛在的、动态迁移的。移动互联网、物联网和智能终端的发展,使成员系统的泛在化特征大为增强。这类超巨系统充分利用全球现有的各种信息系统的功能和数据特征而构造,目的就是为了构造目的性极强的超大数据平台,从而获取、分析和利用所获取的大数据,最终获取情报或信息。
例如,美国国安局每天收集全球各地近50亿条手机通信记录,并对其位置和活动进行跟踪,这个全球监听系统就是一个典型的超巨系统。显然,这个超巨系统的是需要精心设计的,需要设定系统目标、功能、体系结构、数据源、数据采集方法和分析利用、系统运行维护等。这个系统的数据结构可能是多种多样的,如结构化、半结构化和非结构化,即使同为结构化,数据结构可能也完全不同。因此,超巨信息系统的设计和构建理论完全不同于传统意义上的信息系统一般理论,需要新的信息系统方法学做支撑。
从信息系统的角度看,至少存在两种不同形态的大数据:从大系统中获得的大数据和从超巨系统中获得的大数据。前者可由政府、企事业单位在其信息化的进程中“水到渠成”地解决,后者则需要根据目标和功能,通过构造特定的超巨系统来解决。
对于许多真正的跨企业、跨行业、跨部门、跨地域的大数据分析利用而言,没有超巨系统就没有大数据平台,也就谈不上对这些大数据的分析利用。
“在当前和可预见的未来,必须研究什么数据和信息是现有的各种大系统所无法提供的,又有哪些可以通过构造超巨系统来采集和进行大数据分析。”周宏仁强调,“当前,很多部门和地方对大数据的炒作比较多,而深入地研究大数据的发生和发展、大数据的应用策略则比较少。当前,首先要搞清楚的是中国需要什么样的大数据,因而需要构造哪些超巨系统,优先级应该如何安排。显然,超巨系统建设愈多,国家数据资源开发利用的水平就越高,国家信息能力就越强,国家信息优势也越为显著。”