随着互联网的蓬勃发展,数据量呈指数级增长。据统计,过去人类生产的所有印刷材料的数据量是200PB,而在如今的互联网时代,全网一天产生的数据量就可以达到920PB。
920PB是什么概念呢?就是9亿GB。这么大的数据量对传统的数据存储、处理、分析提出了挑战,也催生了一大批相应的技术服务公司。尤其是去年9月国务院印发促进大数据发展行动纲要后,大数据这一概念更是广为人知,甚至被提升到了国家战略的高度。
对于大数据是什么,有一个广为流传的4V理论。
首先是Volume,数据体量大,这个很好理解。其次是Variety,数据形式杂。相较于以往能够用统一结构表示的数字化、结构化数据,现在非结构化数据越来越多,比如文本、音频、视频、图片等等,这些数据蕴含着巨大的信息量。随着互联网的发展,这类数据也越来越多,这对数据的处理能力提出了更高要求。
再次是Velocity,处理速度快。随着数据量的倍增,要求计算机能够在有限的时间内处理更多的数据,同时也催生了对实时数据的快速响应。比如美国就有专门的Twitter基金,实时抓取分析Twitter上的数据做建模分析进行高频交易,从而获取超额收益。
最后,也是我们认为大数据行业最重要的一点,Value,也就是价值。我们认为当量级庞大、格式多样、实时传输的全量数据通过某种手段得到利用并创造出价值,甚至能够进一步推动商业、社会模式变革时,大数据才真正诞生。
与大数据4V相对应,相关概念公司不断涌现,也形成了大数据领域的行业生态链。
首先,针对数据量大,除了老牌的IBM,还涌现出了一批如阿里云等云存储服务供应商。针对数据形式杂,一些专注于处理非结构化数据的小而美的公司发展迅猛。针对处理速度快,无论是Hadoop、Spark等分布式架构,还是云计算,都有不少公司开始在此发力。最后,针对价值挖掘,则是我们在做的事情。普林科技专注于大数据建模分析,为金融、电信运营商、交通、物流、医疗等领域提供专业的模型、算法和系统支持。我把我们定位为一部引擎,数据即是原油,通过大数据建模分析技术,我们把原油转化为动能,驱动企业效率提升。
举个例子,我们和美国某著名线上信贷平台合作的风控模型优化项目中,就可以基于借款人的自然人信息、工作信息、历史借贷信息等建立数学模型,预测借款人坏账的概率,实现准确、稳定的借款人分级系统。
其实,在海外,这种基于数学模型和计算机算法的大数据分析技术已经日臻成熟,被应用到社会经济生活中的方方面面。但是我们发现,国内对大数据分析的认知还停留在基本的统计分析和图表呈现阶段,真正基于机器学习等先进的大数据分析手段所带来的价值,尚未被客户认知。这是国内外在大数据领域一个很大的不同,也是目前限制大数据价值挖掘在国内广泛应用的一个很重要的因素。
正因为如此,将海外成熟的大数据建模分析技术带回国内,用数据刻画规律,让数据创造价值,成为我们的使命。目前,我们一众海归专家已经将海外先进的算法模型带回国内,比如我们的技术指导委员会主任鄂维南院士,就是国家973项目“非结构化数据研究”的主持人。
就国内而言,北大清华已经设立了大数据专业,为大数据价值挖掘事业培养储备力量。同时,我们也会在数学、计算机专业的在校生中招收实习生,在我们的海归专家和BAT出来的算法专家带领下,在实践中培养。可以说,随着大数据产业的日渐火爆,人才供不应求,未来“数据科学家”和“数据工程师”将愈发成为炙手可热的岗位。
早在2014年,普林科技就率先提出:大数据的价值来自“对内效率提升,对外数据变现”。基于此,在2016年,我们会继续加深与央行、中证信用、北京市政府、三大运营商、国内外知名基金公司、股份制银行的合作,利用大数据技术为客户带来更大的效率提升。同时借助普林的多款信贷风控产品帮助客户实现反欺诈和信用评估优化,并帮助合作伙伴将其数据价值转化为实实在在的收入。
在帮助商业伙伴提升效率的同时,我们也受邀协助多地政府推进大数据应用。其中我们正与北京市政府合作开展组织机构代码分析指标体系构建工作,帮助政府深入挖掘政府数据资源,释放潜在价值,更好地为社会管理者制定相关政策提供科学、专业、系统的分析手段,实现基于数据的科学决策。
风顺正好扬帆时,勇立潮头唱大歌。2016注定是大数据行业爆发式增长的一年!