eNews正文

大数据可视化分析

2015-12-19 eNet&Ciweek

Tableau 刘琳珂_副本.jpg

Tableau大中华区首席技术顾问刘琳珂

谢谢各位。我的主要的演讲题目是关于大数据和可视化结合。

所谓可视化,其实利用人的眼睛来去做某种事物的识别方法。那么对人的眼睛来讲,我们知道一个正常人的眼睛你可以很敏感去识别事物的位置,我和这个屏幕两个不同的位置,两个不同东西的颜色大小等等,都是人很容易识别两个因素,两个人站在这里谁高谁矮,这些东西都是可以被用来,结合了你的数据来帮助你判断什么好什么坏,你的客户哪个好,你的客户哪个坏,你的销售区域哪个好哪个坏,你的运维成本哪个部门高哪些部门低,你可以用可视化来做。我们Tableau用大数据做可视化的公司,他们在什么场景里头利用我们的工具来做大数据可视化分析。

我是来自Tableau的刘琳珂。右边派德教授,《玩具总动员》、《魔界》、《阿凡达》,这三部电影特效是派德教授,他本身是我们公司三位创始人之一,三个系列的电影也都拿过奥斯卡金像奖,他少有做计算机互联网这个圈子里的人上台拿过奥斯卡奖的人。

我们所做的事情利用工具把可视化和你的数据结合起来,进而让我们企业里头的领导、用户们能够有效的来去理解你的数据。

大数据可视化,大数据的客户目前在大型金融、互联网、电信行业比较多,目前为止,如果从互联网行业来讲,谷歌、亚马逊、脸书、ebay本身用Tableau结合他们大数据来做几十几百TB级的可视化分析。

全世界最大的公司,沃尔玛,拥有全世界最大的关系型数据仓库,它本身也是用Tableau来做大数据可视化分析。

后边我就举一些不同例子来看一下你怎么可以在不同的场景下利用可视化来看到你的分析价值。

第一个例子,这是一个网络分析的例子。现在我这上边放的网络分析图是什么?最核心点是我们公司,这是我们公司在推特上跟我们联系紧密度的一些人或者企业通过这个网络图你可以把它看出来,中间明显有一些点比最中央我们公司的点稍微小一些,但是它是一个密集的被人查看转载等等的一个网络重要节点。

这些网络节点中的70%的部分,其实做这个的人主要想阐明这个问题,70%的部分并不是一些相关公司,而是在推特上这些热点人物是什么呢?他们是一些Tableau的重要的粉丝客户,一些用户中的一切一些大师他们在经常转载一些可视化数据分析有关文章并且被更多用户转载查看。

下面一个例子做人口分析的例子。这个例子我把它放进来开生开生小孩,两个小孩政策。你可以看到这张散点图,横坐标是生育率,一个家庭生几个孩子,纵坐标,这个地方人口寿命,你可以想象这张图上越往上的点代表的这个地方人寿命越高,越往右说明这个地方生小孩越多,现在是1950年的状态,我们看看最近60年中发生了什么呢?时间不断推移,所有国家都在逐渐向着最左上边的坐标轴移动,全世界所有国家人民寿命越来越长,但是伴随着生孩子方面大家越生越少,你要看现在的统计资料是可以看到,我们平均生育率是1.6,但是这个点代表是中国,在中国左边还有很多点,还有很多国家没有实行计划生育政策,但是生的孩子比中国还少,这是为什么呢?这样互动式的分析,你在一张表格数据上你是很难得到你要分析的答案,关于人口问题分析是一个相当综合话题分析的结果。

bnb,它做的生意模式,你家里有一间房子,收拾好了做客房,你在网上注册,如果有人在你这个地方  选一个住宅,可能选中你,你已经是这个网站注册有房子可以承租的人,你就向租客提供相应的服务,所以bnb在全世界相当多的国家已经开展服务的网络民宿共享服务平台。目前这个例子是它最热的十个全世界的旅游城市里头来做的价格床位等级等等地理位置。

我拿到的数据是纽约周边包括新泽西一部分这样的位置分析,这个颜色放的是什么?现在我选的指标是价格,越往橙红色说明这个地方房屋均价越高,住一天大概花多少钱,越蓝色相对低一些,但并不是越远离纽约核心区越便宜一些,不是这样,按照不同地方有不同的颜色变化,但是颜色变化最深,最偏红色是在曼哈顿岛的附近,这是比较符合大家认知。按照床位的数量按照其它互动因素会怎么样,这也没有关系。

这个分析本身,其实要在十年前,现在在我笔记本上的bnb的分析是一个大数据的项目,目前在我的笔记本电脑上这个分析里头就包含超过2千万行的数字。

下一个还是位置分析,这个来讲是做的商圈,供应范围的分析,你有一个配送中心,在一定时间内往周围配送范围是有限的,你可以比较细化评估你的供应中心配诵范围或者你商场辐射范围,这是可以更详细通过位置分析来量化。比如说你现在可以看到这个上面不同颜色,一层一层所覆盖最中央的位置,比较简单了,就是你的商场或者配送中心所处的位置,不同颜色代表车辆配送在多长时间到达的区域,你看到最外围是25分钟圈,25分钟半小时以内你的配送车辆或者你的客户看你是什么场景能够到达区域,越往中间偏深色时间越短,整体分布有点像一颗云彩的样子。

下一个例子,十几年前在传统商业当中就有,我们知道在很多做数据分析教科书当中或者说新闻当中都有,十几年前沃尔沃得到啤酒和尿布的故事,经过分析,一个订单有人买了啤酒同时买了尿布,这个  原因是为什么?这是购物篮分析典型场景,到现在我们当然已经很容易来去做综合购物篮分析,上面是购物篮分析可视化场景。你的A类和B类产品哪些是最容易被一起卖出去的,那么现在这上面可视化综合的使用颜色和大小这两个可视化元素,这上边的点个头越大说明它横纵两个轴一起被卖出去的概率更高,但是这两个东西绝对一起卖出去,对你不是好事,它还有利润和配送成本的问题,所以我用颜色放了另外一个指标,就是利润。有可能这个产品频繁被打包卖出去,但是它的利润可能是很低的,这上面这个图,越偏红色这个产品组合这个购物篮利润越差,反之它的利润越好,你可以看到这张图,应该综合被打包出去这个产品和这个产品,都是利润相当好的。同时这个产品采购额又相对比较多一些,所以整个这个产品线都是经常容易被人打包,同时利润好,但是这个产品线也经常被打包出去和别的产品进行一起买,但是它的利润都不太好,所以你可以用可视化元素来得到购物篮分析的综合的分析结果。

后边这个例子是一个挺好没有赚钱因素在里头的场景。这个客户是我们的一个科学家的客户,他是一个海洋生物学家,他只买了我们很小的产品金额,但他做的事情是很有意义。他研究是什么?翻成专业词语,浮粪,我们去过海洋馆,类似两个大翅膀的鱼在最大的池子里游,是鲨鱼近亲,他做这个,他做这个事情代表产品特色,以往他是在离开美国很远的地方去研究,然后研究手段主要是收集这些海洋生物游的位置,这GPS体系。他自己纯海洋生物学家,他是不懂得把这些东西怎么放到一个地图上做可视化,他不懂,所以他以前他是专门在美国本土雇了一个专家,他把数据定期从动物身上收集回来发给他,美国那做好报表发给他。但是有一天他开始用我们工具,他发现还是挺容易自己掌握,省了一道手,自己拿到数据自己把这个图做出来,就不用再去雇专家了。他研究的海洋生物是呆板无力,但是在地图上就很有意义,绿色和蓝色代表两个族群,它们各自活动范围,在海洋中活动的深度有各自明显差异,所以他可以用可视化方式把这些海洋生物划分成了两个独立的小的种群。

下一个例子,我们知道在最近  两到三年专车话题是很火爆,专车最早运营公司优步,商业模式不多说。作为公司运营角度他是很希望得到这样一个结果,我的客户从一个城市,从哪儿叫车要去哪儿量很大,他是希望知道,这样有空车司机鼓励他去那附近,性外一个角度,从很多种原因上这些公司都希望知道有多少比例客户,比如说就从华贸中心打车,现在要去国贸,这个地方很短,但是可能流量很大,这个其实有很多原因做这个事情,但是你要从可视化图表上来讲,是不太容易做的。你用地图分析,地图很好做出来,但是你要在城市范围内看到短途长途量情况不太容易做到,他引用这样可视化图表,这可视化图表做的是对象之间的关系图,你可以看到,首先如果你想知道从哪个地方出去要叫车的人最多,这很容易,现在这个区域,它的出去线的宽度是最宽的,在这个地方有最多需要叫车的人群。你想知道有大量的短途用户在哪里?现在这张图上,它放的是旧金山的数据,相邻两个地方其实是挨得越近,说明这两个地方相对越近,你只需要在可视化图表上找什么呢?找这种类型状态就可以。越是这样的状态说明这个地方从这儿上车从这儿就下了车,你可以很容易找到短途类的用户到底分布在什么样的地方,旁边柱状图是常见类型,柱子越高叫车越多,柱子越短,叫车人越少等等类似。

我举的最后一个场景例子里头,这个是分析,跟我们现在做的事情有点像,这是一场在一个建筑内做的一场会议,这个会议本身分了很多个不同的房间,外边有不同的展位,那么实际上来讲,今天我相信应该组织方没有做这样的事情,我们在美国有一些客户包括我们自己,我们做这样的事情,你拿到参展的标识牌,有抽样的FRD的标签,我们知道你在会场移动技术是怎么样,这套技术是卖场和超市在用。然后结合你登记信息里头也知道你是什么行业的人,比如你是一位记者,你是一位制造业企业的员工,这是知道。所以来讲,我们可以去分析一下什么呢?你现在选中的某一个类型客户,比如说分析员,那么数据分析员在整个这场参展活动里头,上面的点是什么呢?这个用户到了这个位置上跟人家换了名片或者要了一份资料,那么你现在就知道这类的用户大概喜欢去哪些展位是比较多的。底下的这个线是什么?很好理解,他走过的路径是什么,他大概喜欢什么方式走。如果你的参展内容有效是什么?比如说我是一家参展商对我也是有用处,我希望把参展位摆在最关心的客户,我做数据分析工具的公司,我当然希望把我放在数据分析员、企业分析用户这些边上我最合适,我在他们走的路径上也是可以的。

所以这是结合你的位置,其实是一个室内位置分析的一个很典型的需求。在相当多的超市和百货公司里头,至少在美国有很多做这类的事情。

这是我引用最后一个例子,今天时间比较短,一般情况下我会拿一份数据给大家看一看,对这个数据直接做操作怎么做可视化分析,今天时间不够,所以有兴趣我们合作伙伴云顶科技在门口有一个展位,有兴趣到他们那拿一些资料,看看我们更多做可视化分析的例子,谢谢各位!

相关频道: eNews

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@enet16.com
文章排行
广告