智慧金融如何借力最不可或缺的大数据元素

全世界各行各业联合起来，internet一定要实现！

智慧金融如何借力最不可或缺的大数据元素

2015-12-19 eNet&Ciweek

QQ图片20151219134035_副本.jpg

百融金服总裁张韶峰

2015第十三届中国互联网经济论坛暨”金i奖“颁奖典礼于12月18-19日在北京万豪酒店隆重召开。百融金服总裁张韶峰在2015智慧金融高峰论坛上介绍了如何用大数据给普惠金融建模，并提出金融机构使用大数据时的建议以及展望。

以下是张韶峰演讲实录：

今天给大家作的报告是“大数据如何助力普惠金融落实”。我不是做金融出身的，我一直是做数据出身的，毕业开始就一直做各种各样的数据挖掘，做过传统行业，互联网公司像天涯也做过，百分点科技是服务消费领域、互联网领域的大数据公司，百融金服是专门服务于金融机构的大数据平台。

我们主要是给金融机构提供基于大数据的风险，精准营销，还有产品设计的这么一个平台。我们的背景包括中国华融资产管理公司，浙报传媒、还有中国移动、中国银联等等，还有企业征信的牌照。

大数据到底怎么样助力普惠金融？第一是说大数据到底对金融行业有什么价值？这里罗列了几点，金融行业的核心其实是解决了信息不对称，但金融机构自己一样存在信息不对称的问题，解决得好就能赚钱，解决不好就亏钱。金融机构大数据可以做什么事情呢？包括风险防范，像信用风险防范、精准营销、管理、催收、以及风险定价、产品的设计。

关于大数据，目前市场有很多说法，也有很多误区。第一就是数据量大，其实数据大并不代表是大数据，大数据更多强调的是你的价值要大，而不是数据要大，一个摄像机放在煎饼果子摊，7×24小时都录，数据量也很大，但是价值却很小。所以，更多强调的是要有用，有价值。

大数据的核心内涵一个是数据的交叉融合，不同行业领域的数据融合，它比单一一个领域的数据简单叠加价值要大。不同领域的数据融合是乘法效应，相同领域的数据叠加是加法效应。

对金融机构来讲，这个问题尤其严重，为什么这么讲呢？很多金融机构跟我们说，我有很多数据，尤其银行特别爱说有很多数据。实际大家仔细想一想，金融是整个经济活动里面处于下游，我们为什么要借钱呢？你要买房子。为什么要买保险呢？你要坐飞机，或者可能觉得自己未来会生病。由于有了生活过程当中的原因，才有金融活动的结果，所以，金融机构实际上是不掌握数据的上游，金融机构处于数据的下游，为什么今天BAT，百度、腾讯、阿里他们跟银行直接竞争呢？因为他掌握了上游，所以他可以做你的事情，他是从山顶往下冲，你是往上爬。所以对金融机构来讲，如果你做大数据，你是应该掌握原因，而不是结果，结果已经是很小一部分，往往已经来不及了，事情已经发生了。

下面我们介绍一下第二部分，如何利用大数据进行金融建模，包括三方面，一个是传统的风险建模思路，第二是线上线下融合，第三是思路实践效果，第四是大数据在不良资产中的管理与应用。

第一是传统金融机构建模思路，不管有没有用，基本上有一个思路，主要是这么几个变量，第一个是你过去什么时候借过钱，信用记录的时间。有没有逾期、坏账、额度这些数据，其中最最重要的变量就是你过去借钱有没有还，形成坏账。我们利用这个数据来预测下一次借款会不会逾期，会不会直接形成坏账。

如果说这个用户之前有过借款行为，你用这个数据预测下一次借款是不是还，我觉得还是OK的，效果不错。但是如果一个用户之前根本就没有过借款行为，实际上你怎么评估呢？这是一个悖论，很难评估它。我们再说得数学一点，技术一点，传统的方法是用10—15个强变量，来算一个违约概率，你的X也好、Y也好都来自于金融机构本身，这种方法已经被金融机构覆盖的情况下是有效的，应该说是相当好的。但是对中国来讲，这个情况变得完全不一样，在美国可能80%都是有金融信用记录的，在中国可能80%是没有信用记录的，人民银行征信中心大概有3亿人的信用记录，占中国总人口的25%，仍有75%的人没有有效的信用记录，这将导致大多数人的融资需求很难得到满足。我们说我们要做普惠金融，可是无法捕捉到他的信用记录，不能借给他，所以还是不能做普惠金融，就形成了一个怪圈。

有没有什么方法可以缓解这个问题？金融机构的数据刚才已经讲过了，比较少，因为金融机构的金融行为属于低频行为，它处于下游。但是日常的生活消费行为社交行为处于金融的商业，我们捕捉不到那么多用户的金融行为，但是大部分用户的衣食住行，社交娱乐，都是天天在发生。这种数据非常的大，我们刚刚讲说传统的借款方法是10—15个变量，很少有银行用到20几个变量，但是如果说这种变量的话，可能就是50万个变量，不像我们公司原始的数据库底层的，每个人50万的数据。不管你借没借款都有这样的数据。

第二个是维度非常多，好处和坏处都有。坏处是逻辑规则方法不管用，比如说很多公司做广告预测，他要做每个人看见广告会不会点击的预测非常难做，他大概会用几亿的变量做预测，每个相互关联性都很弱，属于典型的弱变量。这个方法很难，但是它的好处，比如我们说以前的方法用15个变量，如果你缺失了三个变量，你的预测效果就明显打折。但是对这种方法来讲，50多个变量，别说缺三个，你缺3000个，对模型的效果影响都不大，因为占比太少了。所以这个建模虽然难，但是建模之后的稳定性、有效性更强。最关键是他覆盖的人群比较广，而覆盖的人群恰恰是今天的普惠金融想要服务的人群。

我们通过这个方法覆盖了6.1亿实名用户，还有10.8亿匿名用户，大概三四亿人我们知道他的手机PC设备编号，大部分的用户岁数都是介于15—50岁之间，就是普惠金融服务的主流人群，每天大概捕捉用户个数是一个亿左右，真实性比较强，我们捕捉的时候，他都是在进行阅读、消费、信贷等等。

还有一个就是身份的打通，IP的打通。一个有问题的借款人，可能会隐藏自己的身份，他可能有三个手机号，其中一个手机号做的事情比较白，还有一个手机号做的事情比较黑，他有五个QQ号，有一个QQ号所在的群是很烂的群，他会隐藏掉，你能不能知道这些ID都是他的，这是很重要的一点，你要把他好的不好的合起来综合评估，否则的话就会被欺骗。来源比较广，这个机构大概有两千多家，有零售的、金融的、社交、航空运营商各种都有，以及反应是实时的，大家如果了解百融金服历史的话，毫秒钟就发生了，你刚刚买了一个商品，我们就会预测下一次你的行为意图是什么。有线上数据也有线下数据，有传统的，有新兴的。

形成一个用户画像，分了几个方面，性别、年龄、职业、婚姻状况、住址，以及通信标签，用50个字说清楚你是什么样的人。价值标签，有没有房，有没有吃，是不是炒股。长期阅读喜好，长期购物喜好、短期购物场景，喜欢什么样的金融服务，混什么社交圈子。目前来讲，通过这种方法我们合作的金融机构大概200多家，像主流的商业银行，建行、招行、光大、华夏、浦发，以及农商行，像今天在座的还有我们的客户，还有一些小贷公司，甚至信用保险公司。

取得什么样的效果呢？从我们自己做的真实客户的例子，比如说在某一家银行，他们给了我们130万客户资料，当时不知道客户谁有逾期，谁没逾期。通过建模方法，我们挑出70%的人是不错的，通过刚开始属于闭卷测试，剩下是开卷测试，剩下的逾期率是开始测试逾期率的2倍左右。经过两轮共50万真实用户的测试，线上逾期不良率6%，线下是4%。有一些蓝领工人15号发工资，到10号可能没钱了，就要借钱周转，当时不良率30%，非常高，纯粹在线上手机上借款我们大概又加了10%左右。

风险的识别无外乎两个，一个是欺诈风险，一个是信用风险，信用风险核心识别是身份识别。现在也出现了一些案例，叫实名欺诈，我就用我本名，信用卡、手机号、邮箱等等，我就骗你一次，骗了我就跑，我也不准备在银行借钱了，这叫实名欺诈。这种例子一般来讲，他借的钱不多，还是少，大部分不会留自己的真实身份，要么手机号是假的，要么身份证号是假的，地址是假的。第二是信用风险防范，他愿不愿意还钱，他有没有能力有没有钱还给你。这是我们的例子，关联出不同的身份证号、手机号。地址核查本身很重要，地址超过5公里是3倍的欺诈概率。

信用风险防范这个事就复杂很多，比如说有的人并不是不还钱，可能看到另外一个哥们借了钱没钱就没事，然后他也不还钱。我们发现经常坐飞机坐商务舱的人还款能力好一些，但是这里欺诈的不算，他就是不想还钱给你。还有一些比较有意思的例子，比如说打游戏、看动漫，三四线城市生活的人还款能力差一些。喜欢看经管图书，管理科技类的会好一些，你把钱借给他，他就干什么事。尤其是给小微企业贷款的时候，那个老板平时在干什么事，有一定的预示效果。这是模型的预测值，一般的银行做模型，希望KS值是0.3以上，如果说没有人行报告，他们只能做0.28，如果有人行报告就做到0.38，也不是每次都能做到这样，其实KS值0.4是非常难做的。这是我们评分的参数，关键信息匹配，稳定性、申请信息核查综合起来。

另外一个大的领域就是不良资产的处理，大数据的应用从今天开始蔓延到不良资产的处理。不良资产的形成70%的原因是失联造成的，一打电话找不到人，70个人会还你的钱，大部分是由于失联造成的，你只要找到他，基本上还给你，但是找到他这个事很难。这是我们做的一个客户的测试效果，通过手机号找到多少人，通过邮箱找到多少人，通过固话、地址，但是找到不一定还给你。一般来说，有些P2P公司，100个有3%的不良，要回来3%的人都很少。但也不是每一次都不好，不良资产这个事是非常非常难办的事情，是整个信贷行业这么多年来没有解决的一个问题，现在我们也不能说通过大数据能解决，能解决一部分，但非常困难，一个人要隐藏自己，你要找他非常困难，当然也能找，要动用很多资源，通过派出所、街道去找，一共就欠你一万，你动用这么多人找回来以后层层分，可能就分到500块钱，又觉得不合算，所以这是一个极其困难的事情。

最后是展望，关于金融机构使用大数据的时候要注意什么。一定要集成很多不同维度的数据，维度太少容易出问题，比如说最知名的芝麻分，我一个客户大概三个月之前告诉我，怎么样破解芝麻分。他跟我讲过四招可以快速提高芝麻分，第一个是在淘宝上买家居被单，证明你有家庭，还款信用就好一些。第二个就是商家的好评，第三是支付宝里不要一点钱没有，第四个是在支付宝里用亲戚朋友给你转钱。这四点每一点都很有道理，但是为什么会被破解呢？因为芝麻分的所有数据都来自阿里体系，一个信用中介舍得花500块钱提升芝麻分，从而获得50万元的信贷，所以一定会被破解。所以，芝麻分高分人群比低分欺诈客户还要多，因为高分是可以做出来的。所以，你的维度如果足够广，他也不知道怎么去破解你，比如说我们合作的商户，各种金融机构也好，商家也好，2500多家，你也不知道去哪里破，你破解成本非常高，所以这一点很重要。

第二个，就是合作数据平台本身的公平公正公允性，是不是与你本身有竞争关系，是不是他也去发金融产品，也做信贷。这个很重要。为什么呢？你们合作之间一定是交换数据的，每一个借款人你要送给他审查，如果你告诉他谁好谁坏，他分分钟可以触达客户，没有一家金融机构可以跟BAT比，用户触达能力他们太强了。传统的技术和金融机构的技术不一样，这个太重要了，光变量个数就多很多，我们可以用一些方法来模拟，总体效果会下降。还有一些就是服务，对大数据的理解要深入到业务成绩里面去，而不是纯粹把它当做一个技术部门。

另外一个是关于安全，你做任何数据服务要讲安全，不管是金融机构也好，还是合作方，数据要掌握好一点，主动寻求监管机构的监管，做不好的话等于自己给自己上一些枷锁。

我的分享就到此。