eNews正文

智慧金融如何借力最不可或缺的大数据元素

2015-12-19 eNet&Ciweek

QQ图片20151219134035_副本.jpg

百融金服总裁张韶峰

2015第十三届中国互联网经济论坛暨”金i奖“颁奖典礼于12月18-19日在北京万豪酒店隆重召开。百融金服总裁张韶峰在2015智慧金融高峰论坛上介绍了如何用大数据给普惠金融建模,并提出金融机构使用大数据时的建议以及展望。

以下是张韶峰演讲实录:

今天给大家作的报告是“大数据如何助力普惠金融落实”。我不是做金融出身的,我一直是做数据出身的,毕业开始就一直做各种各样的数据挖掘,做过传统行业,互联网公司像天涯也做过,百分点科技是服务消费领域、互联网领域的大数据公司,百融金服是专门服务于金融机构的大数据平台。

我们主要是给金融机构提供基于大数据的风险,精准营销,还有产品设计的这么一个平台。我们的背景包括中国华融资产管理公司,浙报传媒、还有中国移动、中国银联等等,还有企业征信的牌照。

大数据到底怎么样助力普惠金融?第一是说大数据到底对金融行业有什么价值?这里罗列了几点,金融行业的核心其实是解决了信息不对称,但金融机构自己一样存在信息不对称的问题,解决得好就能赚钱,解决不好就亏钱。金融机构大数据可以做什么事情呢?包括风险防范,像信用风险防范、精准营销、管理、催收、以及风险定价、产品的设计。

关于大数据,目前市场有很多说法,也有很多误区。第一就是数据量大,其实数据大并不代表是大数据,大数据更多强调的是你的价值要大,而不是数据要大,一个摄像机放在煎饼果子摊,7×24小时都录,数据量也很大,但是价值却很小。所以,更多强调的是要有用,有价值。

大数据的核心内涵一个是数据的交叉融合,不同行业领域的数据融合,它比单一一个领域的数据简单叠加价值要大。不同领域的数据融合是乘法效应,相同领域的数据叠加是加法效应。

对金融机构来讲,这个问题尤其严重,为什么这么讲呢?很多金融机构跟我们说,我有很多数据,尤其银行特别爱说有很多数据。实际大家仔细想一想,金融是整个经济活动里面处于下游,我们为什么要借钱呢?你要买房子。为什么要买保险呢?你要坐飞机,或者可能觉得自己未来会生病。由于有了生活过程当中的原因,才有金融活动的结果,所以,金融机构实际上是不掌握数据的上游,金融机构处于数据的下游,为什么今天BAT,百度、腾讯、阿里他们跟银行直接竞争呢?因为他掌握了上游,所以他可以做你的事情,他是从山顶往下冲,你是往上爬。所以对金融机构来讲,如果你做大数据,你是应该掌握原因,而不是结果,结果已经是很小一部分,往往已经来不及了,事情已经发生了。

下面我们介绍一下第二部分,如何利用大数据进行金融建模,包括三方面,一个是传统的风险建模思路,第二是线上线下融合,第三是思路实践效果,第四是大数据在不良资产中的管理与应用。

第一是传统金融机构建模思路,不管有没有用,基本上有一个思路,主要是这么几个变量,第一个是你过去什么时候借过钱,信用记录的时间。有没有逾期、坏账、额度这些数据,其中最最重要的变量就是你过去借钱有没有还,形成坏账。我们利用这个数据来预测下一次借款会不会逾期,会不会直接形成坏账。

如果说这个用户之前有过借款行为,你用这个数据预测下一次借款是不是还,我觉得还是OK的,效果不错。但是如果一个用户之前根本就没有过借款行为,实际上你怎么评估呢?这是一个悖论,很难评估它。我们再说得数学一点,技术一点,传统的方法是用10—15个强变量,来算一个违约概率,你的X也好、Y也好都来自于金融机构本身,这种方法已经被金融机构覆盖的情况下是有效的,应该说是相当好的。但是对中国来讲,这个情况变得完全不一样,在美国可能80%都是有金融信用记录的,在中国可能80%是没有信用记录的,人民银行征信中心大概有3亿人的信用记录,占中国总人口的25%,仍有75%的人没有有效的信用记录,这将导致大多数人的融资需求很难得到满足。我们说我们要做普惠金融,可是无法捕捉到他的信用记录,不能借给他,所以还是不能做普惠金融,就形成了一个怪圈。

有没有什么方法可以缓解这个问题?金融机构的数据刚才已经讲过了,比较少,因为金融机构的金融行为属于低频行为,它处于下游。但是日常的生活消费行为社交行为处于金融的商业,我们捕捉不到那么多用户的金融行为,但是大部分用户的衣食住行,社交娱乐,都是天天在发生。这种数据非常的大,我们刚刚讲说传统的借款方法是10—15个变量,很少有银行用到20几个变量,但是如果说这种变量的话,可能就是50万个变量,不像我们公司原始的数据库底层的,每个人50万的数据。不管你借没借款都有这样的数据。

第二个是维度非常多,好处和坏处都有。坏处是逻辑规则方法不管用,比如说很多公司做广告预测,他要做每个人看见广告会不会点击的预测非常难做,他大概会用几亿的变量做预测,每个相互关联性都很弱,属于典型的弱变量。这个方法很难,但是它的好处,比如我们说以前的方法用15个变量,如果你缺失了三个变量,你的预测效果就明显打折。但是对这种方法来讲,50多个变量,别说缺三个,你缺3000个,对模型的效果影响都不大,因为占比太少了。所以这个建模虽然难,但是建模之后的稳定性、有效性更强。最关键是他覆盖的人群比较广,而覆盖的人群恰恰是今天的普惠金融想要服务的人群。

我们通过这个方法覆盖了6.1亿实名用户,还有10.8亿匿名用户,大概三四亿人我们知道他的手机PC设备编号,大部分的用户岁数都是介于15—50岁之间,就是普惠金融服务的主流人群,每天大概捕捉用户个数是一个亿左右,真实性比较强,我们捕捉的时候,他都是在进行阅读、消费、信贷等等。

还有一个就是身份的打通,IP的打通。一个有问题的借款人,可能会隐藏自己的身份,他可能有三个手机号,其中一个手机号做的事情比较白,还有一个手机号做的事情比较黑,他有五个QQ号,有一个QQ号所在的群是很烂的群,他会隐藏掉,你能不能知道这些ID都是他的,这是很重要的一点,你要把他好的不好的合起来综合评估,否则的话就会被欺骗。来源比较广,这个机构大概有两千多家,有零售的、金融的、社交、航空运营商各种都有,以及反应是实时的,大家如果了解百融金服历史的话,毫秒钟就发生了,你刚刚买了一个商品,我们就会预测下一次你的行为意图是什么。有线上数据也有线下数据,有传统的,有新兴的。

形成一个用户画像,分了几个方面,性别、年龄、职业、婚姻状况、住址,以及通信标签,用50个字说清楚你是什么样的人。价值标签,有没有房,有没有吃,是不是炒股。长期阅读喜好,长期购物喜好、短期购物场景,喜欢什么样的金融服务,混什么社交圈子。目前来讲,通过这种方法我们合作的金融机构大概200多家,像主流的商业银行,建行、招行、光大、华夏、浦发,以及农商行,像今天在座的还有我们的客户,还有一些小贷公司,甚至信用保险公司。

取得什么样的效果呢?从我们自己做的真实客户的例子,比如说在某一家银行,他们给了我们130万客户资料,当时不知道客户谁有逾期,谁没逾期。通过建模方法,我们挑出70%的人是不错的,通过刚开始属于闭卷测试,剩下是开卷测试,剩下的逾期率是开始测试逾期率的2倍左右。经过两轮共50万真实用户的测试,线上逾期不良率6%,线下是4%。有一些蓝领工人15号发工资,到10号可能没钱了,就要借钱周转,当时不良率30%,非常高,纯粹在线上手机上借款我们大概又加了10%左右。

风险的识别无外乎两个,一个是欺诈风险,一个是信用风险,信用风险核心识别是身份识别。现在也出现了一些案例,叫实名欺诈,我就用我本名,信用卡、手机号、邮箱等等,我就骗你一次,骗了我就跑,我也不准备在银行借钱了,这叫实名欺诈。这种例子一般来讲,他借的钱不多,还是少,大部分不会留自己的真实身份,要么手机号是假的,要么身份证号是假的,地址是假的。第二是信用风险防范,他愿不愿意还钱,他有没有能力有没有钱还给你。这是我们的例子,关联出不同的身份证号、手机号。地址核查本身很重要,地址超过5公里是3倍的欺诈概率。

信用风险防范这个事就复杂很多,比如说有的人并不是不还钱,可能看到另外一个哥们借了钱没钱就没事,然后他也不还钱。我们发现经常坐飞机坐商务舱的人还款能力好一些,但是这里欺诈的不算,他就是不想还钱给你。还有一些比较有意思的例子,比如说打游戏、看动漫,三四线城市生活的人还款能力差一些。喜欢看经管图书,管理科技类的会好一些,你把钱借给他,他就干什么事。尤其是给小微企业贷款的时候,那个老板平时在干什么事,有一定的预示效果。这是模型的预测值,一般的银行做模型,希望KS值是0.3以上,如果说没有人行报告,他们只能做0.28,如果有人行报告就做到0.38,也不是每次都能做到这样,其实KS值0.4是非常难做的。这是我们评分的参数,关键信息匹配,稳定性、申请信息核查综合起来。

另外一个大的领域就是不良资产的处理,大数据的应用从今天开始蔓延到不良资产的处理。不良资产的形成70%的原因是失联造成的,一打电话找不到人,70个人会还你的钱,大部分是由于失联造成的,你只要找到他,基本上还给你,但是找到他这个事很难。这是我们做的一个客户的测试效果,通过手机号找到多少人,通过邮箱找到多少人,通过固话、地址,但是找到不一定还给你。一般来说,有些P2P公司,100个有3%的不良,要回来3%的人都很少。但也不是每一次都不好,不良资产这个事是非常非常难办的事情,是整个信贷行业这么多年来没有解决的一个问题,现在我们也不能说通过大数据能解决,能解决一部分,但非常困难,一个人要隐藏自己,你要找他非常困难,当然也能找,要动用很多资源,通过派出所、街道去找,一共就欠你一万,你动用这么多人找回来以后层层分,可能就分到500块钱,又觉得不合算,所以这是一个极其困难的事情。

最后是展望,关于金融机构使用大数据的时候要注意什么。一定要集成很多不同维度的数据,维度太少容易出问题,比如说最知名的芝麻分,我一个客户大概三个月之前告诉我,怎么样破解芝麻分。他跟我讲过四招可以快速提高芝麻分,第一个是在淘宝上买家居被单,证明你有家庭,还款信用就好一些。第二个就是商家的好评,第三是支付宝里不要一点钱没有,第四个是在支付宝里用亲戚朋友给你转钱。这四点每一点都很有道理,但是为什么会被破解呢?因为芝麻分的所有数据都来自阿里体系,一个信用中介舍得花500块钱提升芝麻分,从而获得50万元的信贷,所以一定会被破解。所以,芝麻分高分人群比低分欺诈客户还要多,因为高分是可以做出来的。所以,你的维度如果足够广,他也不知道怎么去破解你,比如说我们合作的商户,各种金融机构也好,商家也好,2500多家,你也不知道去哪里破,你破解成本非常高,所以这一点很重要。

第二个,就是合作数据平台本身的公平公正公允性,是不是与你本身有竞争关系,是不是他也去发金融产品,也做信贷。这个很重要。为什么呢?你们合作之间一定是交换数据的,每一个借款人你要送给他审查,如果你告诉他谁好谁坏,他分分钟可以触达客户,没有一家金融机构可以跟BAT比,用户触达能力他们太强了。传统的技术和金融机构的技术不一样,这个太重要了,光变量个数就多很多,我们可以用一些方法来模拟,总体效果会下降。还有一些就是服务,对大数据的理解要深入到业务成绩里面去,而不是纯粹把它当做一个技术部门。

另外一个是关于安全,你做任何数据服务要讲安全,不管是金融机构也好,还是合作方,数据要掌握好一点,主动寻求监管机构的监管,做不好的话等于自己给自己上一些枷锁。

我的分享就到此。

相关频道: eNews

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@enet16.com
文章排行
广告