LinkedIn张溪梦:中西方做大数据分析的异同
04.06.2014 20:54
本文来源: 合肥服务外包
张溪梦指出,对于非结构化数据分析需要先抽出去精华信息,之后分析倾向性。而去年提到的菱形分析模型也已经进化到矩阵化,让数据产品的生态系统化。并且做数据分析既要注意细节也要把握根本,也就是科学的方法加整体的把控。
LinkedIn商业分析部资深主管张溪梦
以下为采访速记:
ZDNet:各位网友大家好,我们现在在第六届云计算大会的现场,今天我们很高兴请来了LinkedIn商业分析部资深主管张溪梦Simon,跟我们网友打个招呼。
张溪梦:你好,各位网友,很高兴见到大家。
ZDNet:我知道您是很少回国,因为常驻在美国,因为云计算大会也是第一次参加,云计算大会原来往届的主题都是以云为主,而这两年又融入了大数据的概念。您主要是从事大数据分析这一块的业务,您对参加这一整天的会议有没有特别的感受?
张溪梦:我感触很深,首先是国内云发展很快,我在会议之前转了转,发现有很多的企业都在做云,我觉得这是一个非常好的现象,因为定义为云它就像做分析的人一个肉体的话,他的肌肉和骨骼,这个东西做得越强壮越快,以后做分析的人就有更大的空间能发展,所以我觉得是一个特别好的事情。
ZDNet:Smion原来因为是医科出身,所以从肌肉骨骼来跟我们解释了一下,我刚才听到您的主题演讲是偏向各个案例的一个演讲,因为我们国内的一些企业也是非常关心和注重非结构化数据的分析,因为您是一个分析专家,LinkedIn是怎么做非结构化数据分析的?
张溪梦:大部分的分析都是分析结构化和数字有关的信息,实际上在这个世界里面大家能够很简单体会到大量的信息都是非结构化的,都是语言文本,大家讲看到的东西和听到的东西,不是张嘴讲0和1这种4850万,很多人讲的话还有记录的东西都是非结构化,都是文本,在LinkedIn内部我们也意识到这一点很重要,当时数据的比例来说1%是和数字有关系的,99%是和文本有关系的。
举了一个例子,我们有客户反馈的信息,在群组里讨论的各种信息,还有一个就是在市场调研的信息,还有LinkedIn这些用户在外部,在各个讨论组里谈论的关于LinkedIn的各种消息,这些信息本身很多都是文字和文本,如何从这里面能够把它量化这是我们做的第一个工作。其次量化完了以后还要找到这些和量有关系的原因,这是第二个工作。
就像一本书一样,那么厚的一本书想找到它精华的部分不是那么容易的,这里面我们现在讲的有几个重点的技术。第一,就是如何能很迅速的在大量的文本里面把精华的这些信息抽取出来。第二,抽取出信息以后我们还要分析它的倾向性,就是它是好还是坏,他是喜欢还是不喜欢,他喜欢大约喜欢到什么程度,或者这个东西好,好到什么程度,坏到什么程度,如何能够平衡给比如产品经理、市场推广人员、销售人员有一个量化的标准,还有一个统一的标准,这些东西我们在背后做了很多工作,其中包括了一套,首先还是回到肌肉和骨骼这个问题,硬件的基础架构上面得需要很聪明,因为数据量很大了。
第二,是在这个基础架构的设计上,在软件上也需要很聪明,你如何能在这种无序的一本书里面找到它的精华那些篇章。
第三,要提供一个非常统一和简洁的界面,能给我们内部这些使用者很快做出决策来,这里面又是涉及到了一个比如说系统的设计问题。
第四,有这么多的数据源你如何才能把它融汇贯通融合在一起,因为在LinkedIn内部我们学到一个很重要的因素就是关联性,刚才咱们讲的客户服务的反馈,组群里面的讨论,比如说这个市场调研这三个东西是相对独立的,但是它背后却有很深刻的关联性,就像我的手一样我有五个手指头,但是它是一个手掌把它连在一起,如何能把手掌把这五个手指连起来,这个过程实际上是一个很费力,很难的一个事情。
所以,内部我们还出现了一个新的组织,我们叫MDM,叫Master Data Management,就是专门负责把各个手指关联在一起,让脑子能通知控制这五个手指,所以说我觉得这里面技术还是扮演了一个重要的角色。
ZDNet:LinkedIn有很多经典的产品,像People you may know(你可能认识的人)这种产品,在近一两年内,通过数据分析有哪些新开发的产品?
张溪梦:这是一个很好的问题,People you may know大约产生在六七年以前,这是一个非常著名的数据科学家开发的,他也是我很好的朋友,他现在已经不在LinkedIn,自己去外面创业了。在最近这几年LinkedIn开发了很多内部的数据产品,其中有一个不是很有名的,可能没有它有名,却有实的,叫做销售解决方案,叫Sale solution,这是我们LinkedIn的第四大产品线。可能在去年的时候我们来分享数据怎么做大数据的,分享过,我们内部用数据帮助内部销售员工做了很多快速和有效的决策,增长了很多商业的价值。
实际上现在那一套整个的销售和数据的系统已经在LinkedIn变成了新的一个产品线了,它叫销售解决方案,这套解决方案它不只是一个数据产品,这也是为什么刚才我在演讲里讲的,就是这个数据产品的矩阵化,关联性,它不是一个数据,不是单一的数据产品,它是一系列和数据有关系的产品组合在一起就变成了一种产品,而不只是一个数据产品。所以说如果有时间我希望大家可以去看一看,这已经是正式上线了,在今年可能再过一段时间会有更大的产品的新品会展现给大家。
ZDNet:刚才您也提到LinkedIn的数据分析模型,去年谈到的还是菱形,数据分析和挖掘要做小,我不知道今年有没有新的改善?
张溪梦:LinkedIn内部我们本身来说就是一个不断否定自己,不断进化的一个过程。去年分享从三角形或者是锥形体系变成菱形体系,实际上已经是三年半四年以前的理论了,现在这个理论又进化到了,从菱形的理论进入到了球形理论,这个球形理论就是数据产品,单一的数据产品,这实际上早已经实现完了。我们现在新的概念是说矩阵化,就是生态系统化,数据产品的生态系统化,这种系统化就像一个数据产品是不够的,它有大量的各种普通的数据产品,这种数据产品本身还有很多内在的关联和连接,这样来说它给用户产生价值就不只是两个数据产品相加的问题,而是相乘。
ZDNet:因为其实刚才Simon跟我讲了中国做大数据和西方做大数据有很多不同,您跟网友再简单介绍一下。
张溪梦:讲一讲中国和西方,我觉得中国和西方它是文化的两极,因为以前我是学医的,我从医学上就有很强的感触,我在做数据科学这个领域里面,或者数据分析,我又有很多感触,这种感触背后它是完全一致的,首先中国人讲究根本,中国人讲究把握事物的总体,西方人讲究细节,比如说关注细节和关注一些局部,把每一个局部细节都要搞定,在医学角度来说就是中医和西医之间的区别,因为以前我在国内我是学西医的,我给别人开刀的,当一个人脑子里长瘤子以后我们需要找到那个瘤子的位置,然后把那个瘤子切掉,这就是一个非常典型的西方的科学的思想。当有了问题以后,它把一个大的问题打成一个很细碎的这些小的问题,让一个一个的解决掉。
但是,中医,中国的这种文化就不一样,它讲究的是把握住根本,就是在一种比较模糊的情况下把握住根本。举个例子,比如以前诸葛亮借东风这个事,他看到很多很细微的东西,他感觉到可能那天会从西风变成东风,他又做了一个非常胆大的一种决定,中医上也很类似,它讲究五行,比如说有的人看到一种症状他可能是肝的问题而不是肾的问题,所以说中国讲究把握根本,西方讲究科学上把细节都给搞定,实际上这两个东西在背后是完全相结合在一起的,是完全一致的,它只是个事物同样的两面而已。
我们实际在LinkedIn做分析,这两面都要采取的,首先要有科学的方法,比如说在归纳,在演绎,但是有很多的东西是数据信息里面你无法找到的,这些东西就需要这个分析师对整体大局观的把握。
举一个最简单的例子,就像中国的这个扇子,中国咱们有打开这种折扇,这就是一个非常好的模拟器,中国的分析和文化讲究的是扇子这个最核心底下那个轴扇骨,西方是关注这个扇子的扇面,扇的外围,您发现没发现,中国它只瞄这扇骨,虽然把握了根本,它是没有风的,但是西方如果它没有这个根本这个扇子它就散掉了,所以说分析来说,从这两面来说更有效率。
而且怎么说呢,咱们中国人古代的哲学发展了几千年了,它实际上抓住了分析很多的根本原则,现在西方把它细化,精细化了,就是更有执行的可能,以前比如说现在天下打乱,我们就隐退了,它讲不出个为什么来,所以说人往哪隐退不知道,西方就能很科学的把这个大问题分成小的问题一个个解决。
ZDNet:我觉得两个是相结合,不可或缺,等于西方借鉴了很多东方这样一个概念,等于说又结合了它自己比较擅长的局部,又结合了中国的整体。
张溪梦:有一个很重要的观点就是科学它是需要实证的,比如它有一套新的理论有一个公式,它推演的结构是我这个公式要适应整体的,但是在过往起码一百年之内他们发现很少有数学公式能够在三层之外继续推导的,所谓比如说在这个小的环境内这个数学公式适用,在下一个维度里面可能还适用,到第三个维度它适用的空间或者可能就不大了,这样来说就否定了这个公式的正确性。
但是在中国的角度来说,它讲的是天道,讲的是一个做分析的人要理解天道,作为一个成功人来说他必须要理解天道,天道说穿了就是最原始的那个公式,但是这个最原始的公式在前面演化了很多年以后,人就很难把它解释清楚了,这也是为什么这两极相加我觉得会有很大的益处的一个原因。
有时候,特别是我在工作中我发现很多统计学家他一跟业务人员讲分析公式,讲统计的那些模型,做商业的人很难直接理解这个东西,但是用中国这种角度来说,你就可以把握住原理,把握住根本,跟这些做业务的人只是讲根本,他立刻就明白了,他就不需要你解释那些细节了,所以说这里面有一个执行和战略这两块东西是需要相结合的。
ZDNet:等于说其实我觉得中国在数据分析上还要更多吸收一些经验。
张溪梦:对,中国这边需要更实际,更实体化,我觉得西方需要更模糊,更总体化。但是这两个实际上是同样一个事情的两个面而已,就像一把扇子只不过就是扇子面和扇子骨之间的区别,没有什么实质性的区别,是一个东西而已。
ZDNet:因为您是对历史特别感兴趣,每天都要熟读各种书籍。您用历史感的语言来帮我们总结一下之后大数据的发展趋势。
张溪梦:大数据发展的趋势很简单,道德仁义礼,就这五个事情,就是说大数据以前是被很少的人控制,在道上,咱们中国人讲理解道的人很少,理解天道的人是凤毛麟角的,很少的,像比如说管仲,姜子牙,黄石公,诸葛亮,真正理解道的人很少,他们以前是为谁服务的?是为皇帝服务,为了这种霸主,天下的王,各种英雄人物来服务的,帮他们做策略。
现在这个大数据本身来说,这个大讲的不是数据本身大,而是把它服务于大众,这就是刚才说到了道德仁的问题,咱中国讲的这个仁就是服务于大众,为天下人谋利的人就是天下的领袖,所以说我觉得大数据实际上是用小的数据得到大的道理,辅佐大量的人而已。道德仁义礼,一层一层往下推,道是天道,礼是礼教,大家应该怎么做。
我觉得现在新的科技为我们带来很好的机会,能够把管仲,鲍叔牙,还有张良,李斯这种人物通过数据,通过咱们今天这些智能终端能做到每个人身边去辅助每个人做决策,辅助每个人有信息,这里面又回馈到西方也有一个叫《国富论》的这本书,刚才在演讲里也讲了讲,它就说如何才能让大部分人富起来,它讲的是那么一个道理,他所谓一个自由市场经济,它实际上自由市场经济产生了也是一样,就是让信息从不对称变成对称,让大量人都掌握信息,这样大家都可以一起同时积累财富。我觉得大数据就可以用在这个上面去,而且每天在LinkedIn工作的本身我们的工作就是把信息能交给很多人,让他们更成功,更有效率。
ZDNet:我也看到LinkedIn未来可能会更加利用这个数据的价值来帮助企业用户,而且LinkedIn中国现在也是正式成立了,相信未来LinkedIn美国和中国也会加强更多的合作。今天谢谢。
本文来源: 合肥服务外包
04.06.2014 20:54