2023信创独角兽企业100强
全世界各行各业联合起来,internet一定要实现!

大数据能做什么?需要做什么?

2015-12-19 eNet&Ciweek

圆桌照片_副本.jpg

左起:姜奇平、刘琳珂、丁磊、邢志峰、李安颖

刚才来自五个不同领域嘉宾就大数据发表了自己的精彩的见解,我们下边一个单元有请五位嘉宾到台上来,我们共同举行一个对话,有请丁磊、李安颖、李旭阳、邢志峰和刘琳珂,五位先生到台上就坐,大家欢迎!

用比较概括语言描述一下大数据能做什么?需要做什么?我解释一下这个问题。能做什么呢?咱们举一个具体的情景,什么情景,雾霾,假设现在让你去治理雾霾,比如说让你改行解决雾霾问题,或者你给别人出主意,说大数据分析咱们这雾霾怎么形成的?有什么办法治理?依你的专业知识或者所在领域你可以出点什么建议。比如说我们可以如何发现雾霾构成它的规律,怎么治理它或者解决,提高人们健康水平等等,以此为例,咱们谈谈大数据它可以做什么,能够对我们的生活产生什么样的影响。

第二,我们以大家所在领域专业知识,你们认为我们大数据今后需要重点发展什么?在各种各样的领域里边,这里边包含两方面,在你所在的领域可能有十个选项,你认为选出最重要的方向,你认为未来的五年十年,应该是什么东西最有前途最需要发展。或者说除了你这个领域以外,包括整个大数据领域,你认为哪些是非常重要,有必要加码加以重点发展。

先从邢志峰总说起,你提雾分析,跟咱们雾霾分析不知道能有什么关系,能不能用上,我是提个头。   

邢志峰:雾分析跟雾霾没有什么大的关系,字面上可能有点像。刚才姜老师提了雾霾这个问题,我自己觉得雾霾这个问题跟大数据关系也不是特别大,姜老师提这个问题我脑子里一直在转,我们分析雾霾的构成,我相信可以通过大数据做一些分析,包括世界各地包括伦敦之前几十年前雾霾很严重,这么多年来,它的雾霾变化以及它做了哪些措施一定通过数据分析做洞察。包括今天北京市雾霾很严重,到底是机动车还是污染企业还是炼油等等制造企业等等我相信也可以分析。

我个人觉得数据,如果要具体到雾霾,更重要的事情,我提个建议,北京市环保局联合政府,比如我有车甚至我自己也是一个业主,我可能开服装店等等,是不是可以计算出每个人其实你在雾霾这个角色里面,产生雾霾这个角色里面你到底做了哪些“贡献”,现在的问题,我自己体会有很多的车主包括有很多企业老板,一方面我们在抱怨北京市雾霾很严重,一边开着车或者在使用不是绿色环保这样的一些措施来出行。

我觉得一个很重要的数据力量,很多时候是我们没有看到我们作为一个微小的个体,我们对整个大社会的影响到底是什么。如果有可能的话,给我计算一个雾霾贡献指数,每天这个指数在变化,其实我相信我会有同理心,我会知道克制自己的欲望,即使我有钱也不去买高能耗的车等等。

对于每个企业,每个企业都有雾霾贡献指数,企业自身有社会责任,也会有一些自律,这样的一种方式可能会推动我们社会进步。

主持人:这招是高,过去我们讲什么呢?80年代有一句话说从我做起,现在大家见到雾霾埋怨别人,跟自己没关,你有一个显示牌自己增加多少雾霾,贡献雾霾率有多少,下次我见着北京市领导提提建议。  

丁磊:通过数据能够驱动一定程度上的关于雾霾的决策和优化。好比某些企业污染比较大,作为决策的这些制定者能不能根据这些数据进行一些更加合理化的优化,使得整个社会上的雾霾量会有一个控制,同时又不会影响我们经济发展、个人生活方便性,这可能通过数据来驱动或者说辅助一个决策制定的理念,我觉得这个非常有道理。

我个人这边分享,我想C端消费者来讲讲,我这边确实有一个实际案例,我可以给大家看看手机上两幅照片,一个是我在家里测的雾霾值,你可以说是小数据,73。我解释一下,我家里不在窗户边上测的PM2.5,你可以认为有一定的偏差,我不是说这个值测得比较准,给我比较好方向性雾霾指数。因为当雾霾大的时候,我这个数值确实变大,我这个测量数字跟实际雾霾有相关性的。

第二张照片,图已经变成红色或者说黄色,这张也是在家里同一个时刻,窗户边上测的PM2.5浓度,由73变成177,这个数字告诉我什么信息,在雾霾天,我尽量不要在窗户边上待着,同样拿一个仪器在家里不同位置测出两个不同的数字。

雾霾这么大,对于消费者没任何意义,现在即使在我家里通过简单仪器简单测量,告诉我雾霾大的时候尽量不要在窗户边上待着,我也分享给身边的朋友。

总结一下,五买这个事在一定程度上帮大家改善一定的生活,雾霾天做一个C,应该去哪些地方,不应该去哪些地方,在公司房间里,哪些房间雾霾值要大,我们尽量不要去。你说这个数据是小数据,但是行动数据。   

主持人:从数据采集,大数据帮助我们更多了解情况,首先我自己我就觉得始终有些不解之迷,我小时候看天气也是乌突突,有全样本的数据证明,过去是多么严重,现在多么严重,我有一个  比较,现在没有说明。第二个困惑是什么呢?我看明明数据比较高,我看得很清楚,我家住在山里边,我看四周围那个山,如果有一面山我能看到,绝对是特别清楚,我一读那个数非常高,很严重。你刚才说那个数字情况我就严重怀疑,数据  采集器摆哪儿,摆在公路边,大卡车一喷气,明明天气很好,说很坏。但是也有反面情况,我觉得这个空气好像很不好,数字却很低,其实跟这个数据采样有关系,大数据全样本采集数据而且还要持续采集数据,在不同地方采集数据,可能将来还有大有作为。   

刘琳珂:雾霾数据不好找,你找到的PM  2.5的数据是近几年的数据,你想对比数据是很困难,比如说你想对比某一个区域二氧化碳、一氧化碳,某种工业污值排放数据你是找不到,你找气象数据,这个地方风、雨情况也是不好找。但是单求过去五年的PM2.5,对比北京、广州、上海、深圳,北京污染程度比他们高一些,但是你要看重度污染时间北京比广州上海高得多,并且有很严重季度特色,北京很明显冬季PM2.5重度污染天数是特别多,你要按一二三四季度去看,北京PM2.5重度污染是弧线,冬季时间是特别多。但是广州和上海是比较平均的,没有特别明显季度的特色,并且他们的重度污染时间比我们短得多。也有一位嘉宾说了伦敦,伦敦目前的成因确定由于煤的燃烧和排放造成的。那个年头没有机动车,机动车的因素到现在有多少?是一个大的问号,因为我还做过一个时间分析,以北京为例,这个数据不太桥说准确度如何。你会发现北京PM2.5重度污染集中在半夜比天多得多,这是个很奇怪的事情,晚上应该是车辆各种东西很少,为什么反而数量数值会高呢?我拿不到别人数据的人,我怀疑工业企业在半夜加大排放,分析的手段早就有了,有这样分析能力的人有大把,我本身并不是一个十分优秀的数据分析专家,所以说公共数据平台开放数据平台下午提过几次,城市公共数据开放帮助城市,老百姓会帮助这个城市分析让  某一些交通污染大家一些生活方面变得更好,很多人来参与做这个分析,所以城市公共开放在美国包括在国内有一些试点出现,这方面大家了解你生活周围特别清晰的基础。  

主持人:反映出大数据它的相关分析其实很厉害。你比如可视化,您分析是一回事,展示在那就是事实,事实上到底是什么原因。晚上谁偷偷摸摸排放污染,我非得抓他不可,这事得看,让分析专家去说,我们只是告诉他这个事实,你一说我脑洞打开,污染治理不好,我能采取什么措施让大家寿命不减少反而增加,大家选择吧,怎么选择,治理污染还是说让大家寿命提高也是相关分析,说不定我污染治理不好,但是我因为提高大家抵抗力或者是医疗贡献更高,结果我污染的地方比空气好的地方活的还长,那大家真说不好是什么选择方法。

李安颖:今天是单双号限行,用数据治理雾霾没有直接作用,我觉得更多的通过数据的分析,就刚刚说拿数据说话给政府部门去解决或者说去治理雾霾提供一些依据,从政府机关或者政府机构做这些事情也是挺艰难的。今天做限行,事实上我觉得空气质量其实可能没有想象中那么重,如果不去做治理的动作,大家又会觉得不作为,怎么办呢?更多从政府机构这块,能够达到或者能够相关采集到的这些数据来去做分析,给老百姓,它的决策更开放一些,给老百姓更多的一些,在决策方面依据的一个公开,我觉得大家可能更多能够去理解到,更多能支持到政府在做很多决策方面的一些支持。大家就不会盲目来去进行吐槽,现在互联网的时代,大家言论更开放更自由,更有可能会误导到大家很多的视听,这是一个。

第二块,说到治理雾霾,我一直以来是参与到很多林业信息化工作当中,我曾经跟一个林业专家和领导做过沟通,我说咱们国家其实从80年代开始构造三北防护林,内蒙、宁夏构造北方一条防线挡住从内蒙、西伯利亚过来的沙尘,但是有的人又说到一点,除霾主要靠风,防护林建到这个程度是不是真的对我们近年来的雾霾的产生又造成了一些影响,我当时专门做过求证。当然了事实上是没有的,但是我当时联想到一点,到底我们的防护林建到什么程度,国家投几十亿上百亿来去做,做到什么程度。

第一,在整个生态环境方面整个是有改善。

第二,对大环境是没有一些其它方面的干扰,目前可能大家是拍脑袋,我们今年应该建30万亩林子,我希望下一步咱们这些相关的部门能够把这些数据,生产方面的数据和气侯以及气侯方面一些因素数据能够统计起来,然后来做一些预判和分析,让我们真正国家资金用到比较有用的地方,能够为咱们真正老百姓生活能够创造更好的条件。  

主持人:我认为这也沾边,李总刚才谈到网上政府数据开放,我发现比如说你拿纽约来说,纽约他们在数据开放式过程中有两种数据特别有用。一类是医疗数据,一类就是气侯数据。这些数据,它倒不是政府那分析,开放出来,就像可视化,我也说不出来,但是我把数据开放出来,你们大家自己建APP,反正是八仙过海各显其能,你去治理,我有招,我可以从健康角度,我可以从林业角度,他可以从汽油角度,大家不同角度嫁接在政府数据平台上,变成大家一起来治理,叫共治。先共享然后再共治。

今天可以讨论,本来我随便一说,其实我这么一想真很有道理,我们说的挺综合 解决方案,从头到尾、数据采集、相关分析、可视化处理、到政府数据开放,从我做起,特别从我做起极有创意,我估计政府绝对没想到,下一次真可以做篇文章。

转到第二个话题,刚才说我们拿大数据可以做什么,可以解决什么问题。那么现在从满足需求角度讲,从供给角度讲,我们从提高大数据能力这个角度讲,那大家认为自己所在的领域或者说是你看整个大数据领域,你们认为应该重点发展哪个方向,或者你自己比较看好的那个领域是在哪个方向。咱们依次来谈谈。  

李安颖:因为从目前来看,咱们政府的这些所拥有的或者说在政府工作过程中产生的数据应该是多种多样的,有一个比较麻烦的问题就在于没有达到完全的共治,在各自治理过程中所产生的数据之间相互的冲突或者说是一些重复,我们在鉴别数据过程中会达到很困难的一些情况,所以我说从大数据的下一步政府数据开放,第一个要把数据开放出来,然后能够为大家所用。

第二,在于数据鉴别,虽然我们说数据可能不确定性能够导致它的确定性,但毕竟还是要保证一定数据的准确性,可能会是下一步从政府机构或政府机关去推动大数据的一个方向之一。

主持人:我补充一点,关于这个问题我了解一些情况给大家透露一下,政府数据本身共享很成问题,恐怕将来中国路子是由易到难,先是在2018年前后开放公共数据,跟公共服务而不是政府关着门那个,那个比较复杂,先把可以公开的为公共服务跟大家福利比较近的这些数据先开放,这样先用起来。

李安颖:一定是有一个节奏,本身政府内部处理过程中会有一些困难,但是面向老百姓首先要拿出来,为社会所用,社会在这个基础之上做出更多的服务来去进行进一步的发展。

邢志峰:我跟北京科委就大数据做过交流,当时很多朋友有共识,很多公司都有这样一个前提,包括很多创业者他们会有一个创业者,如果我有大数据,我能干什么什么事,如果我能把京东、阿里的数据收集在一起,我能搞出什么样的名堂。那其实我自己作为大数据的从业者我一直把大数据如果从宏观上来说实际上分两个层次,第一个层次是属于数据产生层次,然后产生完之后,你的大数据技术也好、你后面的收集包括分析、挖掘、存储安全等等都是大数据技术领域,我觉得大块看这也划分成大数据产生跟大数据技术。

我觉得现在的大数据的社会的风气包括引导,我有一点点感觉是在往后者,在强调大数据数据包括数据分享、聚合、交易包括挖掘分析。但是我自己有另外一个看法在于说,大数据如果没有产生,那你后面那些东西都没有任何意义,所以说这也是为什么我觉得,虽然阿里是我们的友商,但我认为阿里、京东这样的公司其实通过自己的服务给社会带来价值打败了或者说至少我们领先于像亚马逊包括ebay,才使中国零售大数据掌握在至少中国企业手里。如果我们今天没有在我们服务上打败亚马逊或者领先亚马逊打败ebay,中国今天消费者一定会去使用更好的  服务的公司,这些数据其实已经不在我们手里。我觉得大数据根本在于说,应该是怎么想方设法提供优质服务,然后你有了优质服务之后,数据的价值创造实际上你后续盈利,优化盈利效率等等,首先怎么带来价值,怎么改变人们生活,让我们的世界更美好。

主持人:这一个观点非常深刻而独特。  

丁磊:我也说说大数据价值的看法,我想把观点分成两部分,一个是B端企业端第二个在C端,消费者端。我之前听到在我们这个论坛上说的大数据还是从B端视角来说跟业内大趋势是比较吻合,大数据都是一些企业甚至是大企业玩那些东西,他们有足够体量数据,有团队来分析,B端先接受大数据的价值。

B端分成很多行业,我自己在金融行业,我刚才说营销、风控等等大数据有很大的价值为客户创造出新价值,这块不多说。

用得相对少的行业,在传统的房地产行业用知识支持决策比较少,我也看到一些趋势,即使相对传统行业也有挖掘大数据价值,比如房地产公司选址在哪个地方楼盘,或者房地产联系到潜在购买者怎么定下购买人群,怎么把大数据跟营销运营结合在一起,这是我个人看到趋势,总结一下相对比较传统的行业,金融以外包括房地产甚至包括医疗甚至包括教育行业,现在越来越多用大数据支持决策,我觉得在B端的挖掘大数据价值趋势,各个行业通过自己一些客户的理解,自己行业现状结合大数据分析提供价值。

我还想比较一下国外和国内的一些区别,我之前在美国Tableau工作了很长一段时间,包括我在国外生活经历,我觉得大数据好比在美国大家也提大数据,在广度甚至深度上在某些方面可能不及在国内提的这么多,我想原因可能是这样的,我有过一个思考,这个思考是这么一个逻辑。美国环境下一些传统企业大量运用了分析师,我举个例子,好比在美国金融行业就不用说了,本身数据密集型行业,房地产行业包括相对传统行业,分析师这个职业在美国是大量存在,绝对不仅仅在银行里,在很多很传统行业里都有既有以数据支持决策或者报表的过程,他们在过去十年在二十年没有叫大数据,数据体量也没有那么大,这种流程或者思维在历史某种程度存在,我是这样认为,在这样的环境内好比在国外,已经有这么一个既成分析体制或者体系,所以大数据在现阶段并没有给人们带来那么大的冲击。

看看国内这个情况稍微有点区别,传统上包括在各个传统行业上可能用这个数据支持分析,在过去一个阶段相对比较少,包括在我刚才说的那些相对传统行业,医疗或者说房地产行业,他们并没有很多用数据来支持自己的决策。形成这个现状在国内大数据非常火,我想这是有原因。相当于基本上没有数据支持的维度一下跳跃到大数据支持的行业,包括对行业服务消费者说也是有爆炸的需求,尤其美国和中国大数据或者说传统分析业务的思考。

我说这个B端,我关于大数据价值的思考。

过渡到C端,从我个人这边看来,现在也好在国内也好在国外也好,大数据还都是企业级玩的事,C端作为消费者如何用大数据改善我们生活,就像我刚才举的小例子,我知道我屋里哪里雾霾大,我就不往那个地方待,我作为个人如何用大数据支持我的决策,好比我考大学,我要选专业,在信息匮乏环境下我想某些人对自己未来预判不是那么准确,未必符合自己真正价值体现,通过数据支撑下,好比对我们即将高考学生来说应该填报什么样的专业,需要做出金融决策上的上班族,什么样的理财产品对他最好,这些是C端通过大数据支持自己决策的应用场景。

很自然的问题,这些数据在哪儿?C端并没有收集自己数据的意识,这还回归到数据治理还是数据所有权问题,数据肯定在那里,数据跟你交易过的记录里面,如何让每一个普通消费者每一个普通市民通过简单方法从各个你跟他打过交道的企业里面拿到自己的数据,那些数据归根结底是他自己的,有没有通过某种渠道拿到C端的渠道,大数据部分的所有权是归于消费者,消费者如何容易拿到数据,创造价值提高他的体验,这是在C端数据价值的问题。

主持人:关于你第二点,我补充一点,我一直在思考这个问题,在用户掌握自己所有权基础之上如何拿出来,我请教过KK,这个事你不用担心,这个事情他一定是达到利和弊均衡点,均衡点的规律是什么?我过去没想到,他是说用户你把钥匙交给他,克林顿时期确定的原则,他实际上是以什么为轴来想这个问题,实际是个性化和开放之间成反比关系,这是一个规律。也就说他越想让对方提供个性化的服务,他就要越披露更多的信息,比如你去医院,我有隐私不告诉大夫,我得什么病,你害你自己,见了大夫无保留。这个时候,接下来这个问题就是,如果他对个性化的服务评价机遇的价值评价高,他就倾向于开放,评价低就倾向于封闭,完全取决于自己。什么决定评价高还是评价低?经济学研究有明确数据表现,跟收入呈正相关。越是低收入的人他越觉得喜欢大陆货而对个性化的评价偏低,收入水平高了以后,开始对个性化服务给予估值越高,最后结论,社会越发达大家心里越开放,而且这个事情有这个想法和大家心理有错位,隐私带有色彩,个人信息是中性的,这个时候我们可以看到我们老想象是说,我的个人  信息被全天下人都看到,不是,真正服务的时候都是一对一服务,跟你去医院门一关就是你们俩人,你的大夫根本看不着你,你就是一个号码,大家不用担心,唯一的问题,你无法解决,个人收入一下提高,这是社会发展,你说的问题是特别重要的问题,但是将来是有方法解决。

中美基本是这样一个路子,开关在消费者决定的,对于他关还是开,取决于社会发展水平、商业模式和技术进步,我觉得还是可以解决的。

刘琳珂:我想讲大数据搭建和使用方面,比较大型的企业有需求有数据,搭建大数据平台资金都是OK,有大量中小型的企业也有规模不小的数据,自己专门去搭建大数据平台是不合算的,大数据按照性价比来讲并不高,你有一个更便宜更廉价方式把它存储和利用起来,对企业才有价值,所以我目前看到的一个趋势,基于云端更容易被使用和搭建更廉价的大数据平台,目前在欧美是已经走入了很多中小型企业。我有一个客户本身专门做电子游戏一家公司,对它来讲,公司200、300人,主要是游戏开发师。他的特别多游戏玩家的数据,这个东西有没有价值?有,你让他长期保存,又没价值,买游戏道具越来越多,一段时间就销毁掉,有廉价大数据平台上,可以把它放上去,我看到放到云端亚马逊的数据平台上面,它只要买一个服务就可以放在谷歌上,包括阿里云。对中小企业以更廉价,有的情况下成本几乎跟零差不多,维护使用大数据平台,我相信对于很多有大数据中小型企业会是一个更大的促进,因为这个不需要自己有专业的IT维护团队和大规模的资金投入,而有相关绩效回报就拿出来。

主持人:你说的非常深刻这是一个重大信息,咱们中国发展这么大,数据开放平台这件事是很薄弱,它是对内不是对外,反过来给在座各位留下机会,从刘总的话来说有一个世界级的机会在里边被控住了,是通过云的方式,用开放共享方式,用API结合大家来使用,这个是下一步我认为发展的重点。

今天咱们对话非常精彩,大家对四位精彩发言表示感谢。我最后来做一个小结。

今天我听来听去是这样,大数据这个事讲不完,但是我觉得今天其实有重要信息,抓住什么重心?大数据和我们每一个人成功的关系,今天总结出点眉目来,你可以看出中国人国大数据和美国人国大数据那不同点在什么地方。我最近一直在国际上转,欧洲那边转完了以后,不足虑,关键是美国,美国人发展大数据和中国人发展大数据是一回事吗?这个问题我觉得是未来十年的时候要取得大成功必须考虑,你要跟随是做小。

这个差异在哪儿呢?如果用过去古代成语讲,屠龙之术,我发现美国对屠龙之术特别感兴趣,技术感兴趣,中国是用,这是典型中国人的成功风格,偏离了成功的地方不容易成功,你可以看出,咱回过头来看,每个人一谈都是应用,大数据第一个丁磊是说应用在金融,李安颖一提网上政府用在这儿,李旭阳也是具体安全应用场景,邢志峰谈的也是场景化应用,刘琳珂也是谈场景,反复大家都在用场景这上。我说这话不是虚的话,我对这个问题做非常细致的研究,我跟美国人比较,其实我在会议之前我还在说出我这个疑惑,发现美国人、中国人重点不一样,我觉得这个不一样是对了,各自发挥比较优势。

你比如说我看到了基础设施这一层没中国人了,华为排到第17位,现在进到最底下架构嵌入进去也就是阿里,阿里我去跟IBM一谈,用嘲笑口气,你这是属于1.2万工程师才能搞定,意思说你没提炼出来。我一想,中国为什么非得美国人一起做,应用牌大数据未必不成,人家瞄向应用。我不是说屠龙之术,龙不知道,美国市场条件让他不关心这个事,但是中国人必须自己关心这个事,我到底抓住什么应用。第二,大家头脑是具体化的,有一个具体情景,今天有一个主题词是反复情景,将来大数据,可视化只是情景化的一个阶段,情景定价,意思说一物一价这个时代,我价值的确定要一对一确定,要根据上下文来确定,大数据在这里边起到关键作用,我相信中国在这方面会有所擅长。

我说今天大家来了一趟,绝对没有白来,管你十年,你不听这话,你瞎转转,走十年弯路,但是如果我们事先就能看出这个重要东西,你下边十年是什么?要扬长避短发挥中国人最擅长的地方,在这个地方取得成功,所以紧扣应用抓住情景化这个东西,我估计这儿会比美国更有自己的优势。这是我觉得对我来说都是很好的收益,可以说是找到了一个答案。

相关频道: eNews

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@enet16.com