2023信创独角兽企业100强
全世界各行各业联合起来,internet一定要实现!

邹存璐:数据科学助力企业服务创新

2017-06-16 eNet&Ciweek

 以下为邹存璐先生的演讲实录:


首先非常荣幸有这么一个机会,能作为嘉宾,作为相应主题的一个分享,刚才也听了一系列嘉宾做了相关的服务创新的主题分享,实际上从刚才听到的一些内容来讲,大家不约而同都选择了一些围绕大数据、数据驱动一些创新内容。今天,我这边分享的内容也是跟数据相关的,就是叫数据科学助力企业服务创新。东软大家可能都了解,是作为一个全国最大的IT解决方案的服务提供商,东软面对的这些企业,或者面对的这些客户来讲,更多的是传统的大型的企业。在这里面,对于这种传统大型企业里面,它们在这一轮,尤其是互联网+的新闻,这一轮的创新模式的创新,这种冲击之下,它们在这里面面临的一些需求,面对这些需求,就是东软接下来要进行的一个应对解决的一系列的问题。

商业模式的创新,包括从传统的解决方案,外包人力资源的方式,向IP资产这种产品方面的努力的一些突破。今天的主题,我这块是来自于东软先行产品事业部,主要是做大数据产品一系列的研发,这次的主题是分享一系列的围绕这个传统大型企业里面的数据科学、人工智能方面创新的历程分享,在这里面,今天的历程主要是三个方面。

第一个围绕数字化创新的探索历程,接下来两个都是一系列创新实践的一些案例,包括对这些案例的理解和梳理,包括从大数据的转变到因果关系,从传统互联网产生结构化数据到半结构化数据应用的点。第一个面临的文化就是企业级大数据的服务创新应该怎么做?几位嘉宾都分享不同领域的看法,有新零售业的,有做企业协同的,包括研究院旅游方面的创新,大概在六年前加入东软的,之前我在做读博之间做生物数据的分析,加入到东软之后,面临第一个问题,当时大数据正在起步,谷歌刚刚发布一些新技术,一些大数据生态的系统。当时,我们面临的第一个问题就是围绕大数据这个领域,我们要做哪方面的创新,要解决哪些客户方面的痛点和需求问题,毕竟大数据的概念是非常大的,当时我们来看的,包括整个大数据的生态系统,生态院里,解决Iaas基础设施的,包括大数据基础平台的,有一些是做基础服务的,做用户画像的标签输送,有一些还做围绕数据分析挖掘一些内容。在这里面,尤其像东软面临的是传统企业,面临跟互联网新企业相比,在这种业务的探索方面,相对来说,在某一些方面是落后一些的,我们在应对这种客户的需求的时候,经常会问的第一个问题就是:“我这块有相应的企业级的数据,你帮我看看这块有什么需求,怎么做一些创新的工作。”

这种服务来说,跟传统东软面临的客户需是截然不同的,东软很早之前做人力外包的商业模式,比如说像日本企业的服务外包,很有可能客户提出的需求非常的细致,直接给开发人员,就可以直接进行编码,这种模式在大数据模式下是行不通的,自己也没有搞清楚应该做什么。更多的是我现在有数据,数据质量不高,有一些企业在数据积累的阶段,并没有做好很好数据治理工作,数据质量的保证等等一系列工作。在这里面,微少大数据在传统企业的创新,首先要解决的就是针对传统企业的现状,我们如何来帮助进行一些相应的规划。为了解决这个问题,我们也是做了一番大的思考,从两个方面来看技术的方面,对于我们接下来要做企业创新也好,或者相应创新产品也好。

第一,从技术角度发展来看。当时在一年左右,大数据概念初现是谷歌发表的三篇论文,有存储系统,包括一些技术报价,这套技术是奠定了大数据基础计算的路程,推动大数据的商业化和价值化最典型的应用就是推荐系统的诞生,是亚马逊系统应用这种协同过滤的算法在网站上,结合用户一系列的行为数据,我们可以做一些个性化的推荐。这是第一次能把数据挖掘真正跟用户紧密的结合起来,能够显著的提高相应的收益率。当时亚马逊公布的收益率,通过智能推荐引擎,整个销售额提高到20%以上,后来除了商品以外,一个电影公司,从商品到虚拟的电影商品上面的推荐,又进一步推进了数据分析挖掘的在商业企业应用的场景。另一方面,从数据发展的趋势可以看到,整个的大数据的发展的热潮,到互联网化的趋势来说,是一个必然的结果,看整个数据发展的历程,最早的起源应该是来自于天文学,很早之前,人类第一次是从天文里面,通过望远镜观测到行星运行的轨迹,做一些分析和预测,预测太阳、行星系的轨迹行为做一些天文方面的内容,通过这个方面的发展,整个数据分析挖掘,一片繁荣之后,接下来到了一个微观的世界,由于很多基因数据不断的发展,相应的DNA采样的数据成本的降低,对DNA、蛋白质数据的产生,围绕数据分析的技术开始向生物技术转移,这个也是我在读博期间做的内容,通过一些疾病因素的分析,包括大家现在一直在生物学里面做一些探究,一些疾病跟基因的表达,哪些基因表达会容易导致疾病,生物用药的时候会影响相应的疾病的一些治疗。另外,随着这种生物技术,尤其是互联网的发展,在互联网上面产生了大量的行为的数据,产生了一系列的内容数据,包括互联网相应技术的提升之后,采集到用户在互联网一系列的操作行为,这些有系列推动,围绕互联网方面的发展,说到个性化推荐,提供一系列个性化推荐服务。下一个阶段就是围绕这种物联网信息的发展,最近工信部推荐NBLT相关技术的基础建设,围绕物的建设人工智能、大数据的发展会围绕物联网的趋势上进军。

从技术的角度来看,从大数据相应的技术里面,跟传统的分析技术到底有什么区别,在互联网这一轮大数据技术之前,有了一系列的BI商业智能的技术,从纯技术上考虑,大数据能处理的数据量很大,能进行相应的框架的横向拓展,比传统BI的传统量容纳的数据量会更多一些。除了量以外,处理的纬度更多了,在互联2.0技术采用以后,像微信、大众点评、美团点评,有大量文本数据的产生,这些传统BI商是不会做这种处理,更多是针对结构性的数据,针对这个能力来说,有一个相应技术的产生,推动这种文本数据挖掘一些潜在的价值,又增加了一个纬度,传统企业里面,80%的数据都是文本数据,我们很多做的客服系统,做一些咨询的时候,都是非技术化的数据,经过这种语音转文本的技术处理,转变成半结构化的文本数据,这里面蕴含了大量的价值,没有被传统的BI挖掘出来,这个大数据相关的技术给了一个新的活力。

第三个就是时效性的问题,大数据产生这种分布式的计算和分布式流的计算技术,有一个显著的增高。下面也是总结,从业务的角度,传统BI和高级分析的技术差异的区别是什么。传统的BI的商业智能更多是图形化的表达,描述你过去发生了什么,最终是一个辅助决策,最终还是要给人看,人根据这种相应的数据报告做最终的决策。新一轮就是第三阶段到第四阶段就是预测未来会发生什么,和决定未来要怎么做,这个内容是大数据梳理效能提升的一个典型的特点。

有一个典型的例子,在传统里面,面对传统金融银行的企业,里面是他们在用商业智能是最早的一批用户,他们是最早非常关注企业相应内部的数据的管理,尤其是传统金融、银行里面相应资金比较雄厚,早期里面对这个投入比较前倾一些,整个的处理流程是这样,所有银行的分行,会把数据用户交易信息的相应数据的采集,总行做数据仓库和BI系统的建设,分行把数据收集汇总到总行,总行做分析和预测,哪些用户有这种流失的风险,经过这种分析之后,会形成这样一个客户流失的列表,这个列表会下发到支行里面,支行根据客户列表客户,都有相应的客户经理,根据这种客户名单进行一个比对,发现有潜在流失客户的可能,做适当的关怀,我们了解这个周期下来大概是几个星期,可以想象几个星期的周期下来,这个客户早就流失掉了。

还有一个场景就是互联网实时竞价的系统,包括DRP也是生态系统里的一环,根据互联网采集的行为数据,包括刚才说的众盟里面WIFI的探针,形成一些用户画像,在互联网的网页里面,都有一些广告位置,这个是按照相应的价值来进行出售的,每一次用户进来之后,会根据用户的画像的特征,向不同的厂商进行展示,会根据匹配度进行价格的信息比对,我就出1块钱买这个广告位,展现给客户,觉得匹配度更低,我就出更低的价格,每一家厂商出价格之后,最后竞价高者展现在客户面前,在这个运行时间效率大概是在毫秒级。可以想象,星期到毫秒级的差异,典型的一个问题,如果达到了毫秒甚至秒级的时候,就不会有人的因素参与进来,有人的参与就不会达到即实的决策。这个传统智能更多在第一第二阶段,数据科学是高级分析,我们能做出相应的决策。

数据科学并不是一个全新的学科,或者理念。实际上他是一个复合型的学科,传统里面,我们更多是偏一些技术的人员都知道,都偏向于计算机科学技术、数学统计信息更多,大数据相关的技术,在商业环境里面的应用,就是领域知识的结合,没有这个知识的结合,很难把相应数据背后的价值进行挖掘出来,传统里面,更多在技术里面强调技术牛人,现在更多强调的是技术商人的概念,怎么把技术跟现有的业务进行一个有机无缝的对接,体现商业价值。

实际上在这里面,我是2011年加入东软,那时候大家都在做HDFS,解决一些大数据低廉、高效查处的功能,更多的是围绕数据的挖掘,定的整体的发展路线还是围绕数据里面的一些价值,也就是现在咱们说的人工智能,当时探索之路,由于东软是解决方案的提供上,本身来说,之前没有自身业务的运营,现在来说,东软也是在做相应的转型,有了一系列自己的产品,有了一些商业模式运营的内容,所以,当时来说,要解决分析应用的时候,更多的时候你的数据从哪里来,当时我们有很多的一些合作的客户,让他们这些有一些相应的数据,包括东软内部有一些运维数据,还有企业协作的场景,基于这些场景,我们做了一系列的,像亚马逊这种个性化推荐的内容,围绕企业内部这种协同办公的数据,发现企业内部的一种意见领袖,他们的影响力做了一些分析,通过这些应用场景的分析,我们进一步的抽象,形成一种新的工具平台,机器学习的平台,文本挖掘的平台,又进行一些新应用的拓展,有向物联网的拓展,还有预测性维护、异常检测、效能优化的场景。

从探索来讲,经过这么多年的实践,总结下来,包括一些报告也提到,现有企业级大数据相关数据驱动的模式来说,核心的业务就是人、业务、物,很多智能场景都是这三者有机的合同和融合的应用。具体来看一下,在这里面,首先是人跟业务,非常典型的就是刚才提到的个性化的推荐,就是智能业务的产生分析人和业务系统之间交互的数据,提供个性化业务办理流程优化,提高业务处理效率,就是个性化推荐,他们来做这个内容,在业务办理过程当中,我怎么提高效率,尤其是这种海量的信息里面,我怎么加速用户找到他感兴趣的东西,需要的东西这都是人跟业务之间结合的场景。

另一个场景实际上就是物跟业务,这个是比较未来的场景,现在来说,尤其是现在的手机,移动设备的增加,这个场景离我们也不是太遥远了,就是智能设备基于传感器采集到环境信息,进行智能自主控制的决策,比如说设备智能自主效能的优化。甚至来说,刚才我们讲到的,很多现在的业务怎么促进人在环节里面的体验,那么,从未来的角度来说,很多的一些场景,这种决策购买的内容,很多是由物,智能设备来下达的,大家都开汽车,很多的汽车,到达一个里程数量的时候,进行一个传感器监测的时候,可以看到保养的时间,汽车可以根据自身的状态,向4S店自主发送相应的请求,请求一些相应保养的服务,这样由物直接产生业务的场景会越来越多,这种业务的办理跟人的业务办理的时候有很大的不同,物自主消费的时候,更多是理性消费,会促进新一轮业务模式的改变。

另一个就是人跟物的,在座的都有穿戴设备的,包括心率、心跳,拓展人行为的特征的数据,从而提供一些智能信息推送的一些决策,可以根据心率、心跳、血压提供一些健康的预警,提供一些急救自主的场景。人与人实际上就是现在看到这种社交化网络的场景,基于人与人之间的网络,进行一些机能的发现,跟协同也是其中的一个问题,大型企业有几百人员工,新项目里面,找相应的技术专家,东软里面有两万多人,高层和下面员工的时候,这个项目适合谁来做,谁做这个最合适,如何发现一些专家的技术的发现,通过社交的关系,来做相应技能的发展方式。

再未来一个就是物与物之间的协作,这个是一个新的理念,就是社交化物联网的概念,未来来讲,就是物与物之间的自主构建社交化的关系,并通过网络推理发现进行协作完成业务目标。最终来说,实际上是三者的大融合,进行互相的协作的场景,这个有一个典型的场景例子是什么呢,就是刚才汽车的例子,人跟汽车还有一个智能的保险,或者理赔的业务,这三者之间可以协作产生新的模式,比如说未来的智能汽车,可以根据驾驶员的习惯、里程数进行一个智能的投保业务的办理,现在这种保险大家都知道,就是固定的年限,按照去年的出险的次数进行定价,不管你车的里程数是什么样的未来保险业务可能跟价值习惯,是一个驾驶的习惯这些信息,更多提供一个合理的报价,你是一个激烈的驾驶员,就要付出更多额外风险的报价,或者是成本吧。当事故发生以后,智能的汽车设备会采集到人的体能信息,可以向医院发生一些求助的信息,同时可以根据碰撞的内容,向保险业务进行自动的索赔,这三者来说,可以进行一个大的融合,产生更多新的商业模式。

实际上从企业的整体围绕数据分析和挖掘来看,各行各业都有,现在我们看到的实际上是一个碎片化,尽管我们看到很多的大型企业里面,都有这种数据分析的一些模型,但是即使是同一个行业里面,不同家的公司,业务里面的差异还是很大的,怎么去解决?很多像互联网,尤其像互联网创新公司,我做一点,把这一点做透了,就能保证企业的生存率,大企业很难做到这样,互联网那套的逻辑,之所以能成立,因为基数非常大,一个小的比例的用户,由于你的基数比较大,服务的人群还是比较多,获得的利益还是比较多一些,像传统的大型企业来讲,每一家客户里面,个性化、定制化的需求很多,很难满足共性的内容,还有一个大的基数。东软应对的策略,就是利用一系列平台的产品跟业务的应用相结合,实际上在平台里面有一个高级分析的产品,就是知识服务平台,做一种个性化的推荐,做经营者的营销,做一些客户的营销。做一些故障的诊断、一些性能的诊断和优化。

围绕一系列的产品里面,我们做了一系列的案例的实践,从总结下来就是两大方面。一个是从关联关系到因果关系,另外一个就是从结构化数据到半结构化数据。关联关系和因果关系就是啤酒跟尿布的故事,发现购买啤酒的商户,很可能同时购买尿布的内容,在现实里面,我们常常很多的一个场景会混淆关联关系和因果关系的差异,关联关系是知道这两个事件会共同发生,不知道这两者之间谁影响谁,因果关系我们能发现谁是因谁是果,谁是影响另外一个因素的关系。如果你有了一个关联关系的时候,实际上可以做到相应的预测,如果有因果关系,在预测的基础上可以做到相应的控制,能影响干扰这个因,就可以作用到相应的果。从大数据的角度,从数据挖掘的角度是一个很难挖掘定位的地方,把因果关系弱化掉了,只关心关联关系,我是关心预测,不是关心控制,因果关系是很难定义的,这里面经常举一个例子,在古代的时候,很多的部落,都会迷信,迷信什么呢,比如说,崇拜一些动物,或者物体,比如说有一些部落崇拜鸡,当一打鸣的时候,太阳会升起来,这就是关联关系和因果关系混淆的一个场景。还有一种方法可以干预某一个事项的发生,干预这个事项发生之后,另一个因素会不会发生改变,我们把鸡杀掉,太阳照常升起,就可以把这个因素去掉,所以很多的因果关系在现实里面很难挖掘,更多的是强调关联关系的场景。

场景的应用是公安犯罪分析预警系统。在这里面有一个典型的关联关系推的,哪些特征,哪些出行轨迹的行为特征,你更有可能是犯罪的同谋,或者犯罪行为。还有很多学术文章的发表,单单从人脸的微表情的特征,从证明照里面可以进行识别,那个学术文章达到98%左右,这个文章还是非常有争议的论文,这个是典型的关联关系,不是你有这个行为导致你犯罪,而是犯罪人群有这样一些共同的特点和内容。

另一个,做风洞实验的,我们军工的客户,飞行器和导演的客户,会进行风洞的实验进行试吹,来调一些造型和设备的制造优化的内容,在这里面就是一个典型,我们要追求的是因果关系,要找到哪些参数会影响相应的标准的指标,或者一些内容,在这里面的案例,发现一些预测优化,来帮助他们在导弹里面或者飞机制造里面做一些产品优化。

还有一个轨道交通的客流量的预测,要发现哪些因素会影响客流量的增长或者减少,这里面更多的是向一些地铁的客户,除了交通,起来很多政府机关对客流量也是非常关注的,我们接触的公安的一家客户,他们对客流量的预测感兴趣,原因是什么呢?去年举办过马拉松的重大活动,对客流量预测没有把控好,导致很多选手跑到选手之后,大部分都是走回家的,这里面由于没有做好相应预测的工作,没有预测工作就没有相应合理资源的安排,导致相应内容的影响。还有旅游景点,游客量暴增,会发生一些危险事件,像天气的因素、事件的因素等等一系列的因素,会不会能够影响相应客流量的增加或者减少,这个和政府等等一系列公共交通所关注因素非常的一个重要的点。

另一个是我们跟互联网电影渠道的厂商做一些合作,这种厂商在新片上映的时候,都对电影内容做全国院线的布局,这个电影知道哪个电影、导演、信息,能不能知道在哪个地区,很多的电影在东北比较受欢迎,跑到南方就一片冷门,任何一个题材有一些地域性的特征,根据这些数据,我们能否预测出来不同院线的信息,通过票房信息的预测,可以进行合理票房、院线的布局排版,做一些相应营销的活动。

另一个围绕今天的会议,大连最大的一个会议中心,在这个会议中心来讲,对耗电部分就是中央空调系统,能效比的优化是一个恒久话题,在一个非常复杂,中央空调系统COP从3.5优化到5.2,很多中央空调的设备、压缩机等等这些设备,涉及到每一个冷却塔要开多大功率、开多少个冷却塔,每一套中央系统出厂之前会有一些逻辑进行相应的控制,不会根据当前这个设备安装的位置,包括现在客流量的内容做一些调整,实际上可以根据一些动态的信息,来进行一个自主的运维,发现一个最优的参数,提升能效比的运转。

最后一个就是从结构化数据到半结构化数据,主要是围绕一系列文本数据价值的挖掘,最典型的是客户的洞察服务,像电信行业,我们有很多的客服的系统,咱们在打服务电话的时候,都会有录音的提醒,这些录音的数据,经过语音转文本的技术,转化成文本,这些文本数据蕴含了非常大量的信息,对于一个商品评价的信息,对商品意见的倾向是好还是坏,对哪一部分最感兴趣,都是产品优化和生产、设备生产里面重大的依据,通过一系列的热点发现一些用户的倾向。

还有一些电信行业,受互联网冲击最大就是传统出版商,用户拿到报纸之后,所有的信息都断开了,不知道用户读者对你内容感兴趣的内容程度是哪一点,对信息内容的意见是什么样的,这里面的例子帮助他们做了一系列的在线的爬行技术,发现用户一些的评论、汇总,发现读者感兴趣的点,提供给编辑来对未来出版物做一些相应的依据,这个实际上是新闻客户端,也是咱们经常在用的,像新闻头条,它里面做了大量个性化新闻的推送,这个是央视的新闻客户端,更多的是做里面新闻的推送,里面涉及到一系列的产品,包括文本分析,还有用户的兴趣偏好,根据用户的兴趣跟文本内容的结合,来做相应个性化文章的推送,提高相应用户的体验,让读者更容易发现他们感兴趣的文章内容。

最后,通过这一系列的内容,进行在线的智能问答,很多这种常见的问题,可能用自动化的方式来进行,京东里面都有这种服务的内容,可以进行提问,进行相应的智能的问题回答,这个客户更多是用传统的政府企业,像税务方面的一个信息,可以做一些常规的税务信息的问答和用户回答。今天主要分享的就是这些内容,大家关心更多的内容和服务,可以观众我们东软先行产品的官方公众号谢谢大家!

相关频道: eNews

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@enet16.com