主讲嘉宾:孙林
主持人:中关村大数据产业联盟金融大数据专业委员会副主任 李灵隐
承办:中关村大数据产业联盟、金融大数据专业委员会
文章整理:贾彤飞
嘉宾介绍:孙林,北京数云普惠科技有限公司 创始人兼CEO。法国巴黎六大博士毕业 (Paris 6),研究如何从海量数据中建模个体及群体的行为,并发现背后的智慧。曾任某互联网金融公司IT总监。2013年9月创立北京数云普惠科技有限公司。目前致力于提供基础数据源整合及数据加工,以普及大数据的理念,提高广大的大、中、小、微企业,社会组织及个人利用大数据获益的能力。
以下为分享实景全文:
大家好!非常感谢中关村大数据产业联盟给我这个机会与大家一起交流。也感谢陈新河副秘书长和李灵隐副主任的邀请。
我是孙林,我来自北京数云普惠科技有限公司。能在今天这么特殊的一个日子里,给大家分享点带有理想主义色彩的一点浅见,是我和我们团队的荣幸。
最近一直在关注中关村大数据产业联盟“大数据100分”这个活动,跟看了TED的感觉很类似,经常开开脑洞。先给点个赞!
阿里巴巴集团研究院2015年的新作《“互联网+”—中国经济新引擎》开篇引用了普适计算之父Mark Weiser的话“最高深的技术是那些另人无法察觉的技术,这些技术不停地把它们自己编织进日常生活,直到你无从发现为止”。
其实这是1991年Mark Weiser在《ScientificAmerican》上发表文章“The Computer for the 21st Century”中提出的内容(正式提出了普适计算(ubiquitous computing))。1999年的时候他老人家就仙逝了。这就是大师,思想超前时代几十年。
这句话我太熟悉了,作为一个普适计算领域的研究生和博士生,我05年凑毕业文章的时候也会把这句话挂在开篇。但09年我在法国跟从张大庆教授(目前也是国家千人计划引进专家,我们团队的坚实后盾)读博士的时候,已经不再引用这句话了,因为它已经成为普适计算领域的共识。
我非常高兴的发现,这个共识正在从我们的研究领域走向全社会。而我研究的内容,也从研究生阶段的如何基于传感设备做情景感知以便计算机做出响应性的反馈,演化到博士的时候如何基于海量历史传感数据来分析和挖掘人及人群的行为和背后隐藏的智慧。
基于大数据技术越来越展现出跨行业的,高智能的,能给几乎所有产业带来升级的革命性潜力。未来的世界,我们将不再由石油驱动,而是由数据驱动。
13年初我回国发展的时候,我就发现像阿里巴巴,腾讯,华为等巨头公司已经在大数据的应用上已经有了深入的发展。
但我认为在很多国家被定义为国家战略的大数据,肯定不止是给少数巨头带来竞争壁垒,而应该是能给所有的大中小微企业,组织及个人都带来质的飞跃,并且这个升级的过程,我认为是目前非常大的发展机遇。
而从领域上来讲,如果过去糟糕的商业环境成就了阿里巴巴,那目前我们糟糕的信用体系将成为成就下一个阿里巴巴的领域。
我们团队选择了用大数据做信用评估服务这个领域,而我们瞄准的市场,是互联网金融中的第三方大数据服务市场。
如果把借钱比喻成口渴了,那么现在对于大部分人群来讲,去申请贷款的复杂的流程就像去挖井,有些挖到了就喝上了,还有更多的是挖到了石头上。但无论如何,挖井都是一个痛苦的过程。
痛苦的根源,就是信息不对称导致无法高效集约地做出对申请人的信用评估。
而对大量P2P这样的互联网金融公司也一样,由于缺乏足够的数据渠道和数据手段,需要组建动辄万人的团队,“扫大街”式地发掘客户,复杂耗时的人工信审,然后怀着战战兢兢的心情进行放贷。结果还出现了很大的风险。
而未来,随着数据采集能力的加强,数据流通壁垒的打破和数据分析挖掘能力的应用,基于大数据的征信评估将逐步转到纯数据化的过程。
它将驱动金融服务像水龙头一样,口渴了随时打开喝就行了,而人们并不会真正的再去注意它是如何实现的。
这个转变我认为包括了三个部分。
第一个部分是场景化的基于大数据的借贷需求的捕捉。也就是,要捕捉用户需要借钱的时机,趁机提供金融服务,而不是平时费事不讨好的发传单打电话推广告。
比如孩子快生了要买车买这买那用钱,孩子要上学需要学费用钱,同学食堂卡电话卡上没钱需要分期,找不到工作的历史系文学系学生去上个“X内”之类的学校学习programming需要学费,毕业到北京工作的安家费用,以及任何在线的消费金融服务等等。
当然如果发现是借钱赌博、吸毒、玩游戏之类的,还提供借款就真的是愚人节的玩笑了。我认为特定场景下提供金融服务是未来互联网金融发展的重点。这点我不认同很多P2P公司以及信贷公司搞APP来让用户借款,饶了大弯子,可能借完钱就卸载了。我认为金融服务应该是隐藏在其它服务的背后的。比如,要上编程培训学校,直接可以免首付报名,未来还钱就行了,还多少什么时间还都是透明的。而大数据为什么能捕获到这些场景呢?这要感谢我们的电商,感谢我们的各种迅速流行的o2o服务。
昨天有一家洗衣的公司晚上10点跑过来给我们送衣服。连洗衣服这样的事情都线上化了,也就是说它能根据我们洗的衣服品牌质地价位信息,洗衣服的频率,洗衣服的时间特性,推算出我们的消费水平,消费偏好,生活习惯等等信息。甚至,连我们是单身还是已婚,有没有小孩和老人都可能测算出来。是否可以推荐点服装品牌款式?是否可以顺便介绍个对象?是否可以在提供点金融服务?
生活越来越便利,也越来越透明,越来越数据化。学术界叫做context-aware,情景感知,数据感知到了人的状态和行为,然后驱动各种服务。这其中就包括了金融服务。要真正能提供金融服务,还需要能根据数据来授信。昨天和前天李昊总和张韶峰总分享了大数据做征信很多落地探索,我们也有一些探索,后面也会跟大家分享一点。
上面说了基于大数据的信贷场景的捕获,下面说第二个部分,就是大数据的信用审核。基于大数据的信用评估首先需要有足够的数据源。这个数据主要有三个来源,一个是通过实体的服务获取到的用户的数据,比如P2P租车APP,已经收集了用户的通信录,通话记录,终端设备号,上网行为等等(我猜的,如果不是这样,欢迎指正我)。
在这里想对线下P2P公司老板说一句,现在很多P2P公司成千上万的销售人员,本身就可以无缝转化为数据收集人员。他们虽然已经在让用户提交一系列的材料,但是做的还不够多,还不够好。况且很多的P2P公司对数据的收集都不重视。销售人员是可以挖走的,但数据会留下来。
还有就是从公开网络上获取的数据;比如法院执行老赖,黑名单,社交数据等;这个可以自己建爬虫团队去收集,也可以购买数据采集的服务,如果想了解哪些公司能提供这些服务,可以线下联系李灵隐李总,让她赚个中介费。
还有一个是在用户授权的情况下获取到的私有数据,比如身份证,学历学位认证等。现在我国没有建立规模的数据买卖的机制。比如昨天李昊提到电信数据,里面包含了太多的有价值的信息,但是数据源还不够公开,我们很难获取到。在一些灰色的数据市场里,也有人在卖这样的数据,个人不建议购买。
通过对这些数据的汇集,清洗,分析和挖掘,即时评估出用户的还款能力,还款意愿以及追偿措施。然后希望在用户体察不到的时间内完成授信和放款。
第三个就是基于大数据的贷后服务。
这个服务不仅仅是通过用户的数字脚印来发现风险以便派人催收,更是要去捕捉用户的需求,以帮助用户规避风险和克服难关,让用户成长获益。
比如,在给农民提供借贷服务场景下,及时地根据农户的农作物提供天气服务提醒以及市场行情,让用户规避风险。用户获益了风险自然就会降低。
所以,同学们,请畅想一下,金融不再是吸血鬼,而是真真正正的在帮你,这个用户体验多好!将来,我预测会出现专业的贷后服务公司,主打的不是打手,而是服务。
所以通过大数据的驱动,普惠金融才能突出自己隐藏在实体需求背后的服务的本色。互联网金融行业往这个方向走,才最有出路。不过当然现在离这个目标还有很远的路要走。
上面是我们团队对未来的展望,下面是眼下我们的工作,实践干货要来啦!
以目前的P2P及小贷企业为例,信用审核存在着诸多的问题。最为显著的有两点。
一个是慢。现在有IT业务系统的P2P公司还不太多,即使有的,用户的信息也往往是各地的销售人员拍照上传的,还需要手工来录入。尤其是图片格式的银行卡流水的计算,更是消耗了信审人员60%左右的时间。
第二个是效果差,我们北京数云普惠科技有限公司为多家P2P公司提供风险分析的定制化服务。这里我们用一个真实的贷款申请及成交数据集案例进行分析
这是一个真实的风控效果案例。我们将每个用户的画像生成出来,然后计算出各种画像群体的批过率和呆帐率,并把他们都画在图中。每一个点是一个用户画像群体,代表了一个客户群体,这个点的横轴是它的申请中批过的比例,而纵轴是实际发生了呆帐的比例,保密起见,隐藏了真实的数值。一个可控的风控标准,应该是针对各种人群,批过率可能不同,但是呆帐率应该是差不多,即这些点应该是分布在一条直线的周围(呆帐可控分布线)。一个人群如果呆帐率相对于收益过高,风险损失就太大。如果呆帐率过低,可能控制过于严苛,很多客户资源就损失了。
我们很容易的发现,有一部分客户群体的风控做的不错,而还有另外一部分的客户群体,发生呆帐的比例是很高的,呆账不可控(淡红色区域部分)。而还有一部分客群是风控的漏洞,批过率几乎100%,但是风险的比例很高(红色方框内客群)。
上面是最终出现的呆帐结果。我们测算了,如果把红色方框内的群体直接丢弃掉,只损失了5%左右的客源,竟然减少了40%左右的呆帐。更神奇的是,我们又分析发现,这个漏洞在放贷之前就有一系列的异常数据信号。上图展示了这个其中的一个。明显的,在这个指标下,漏洞客群与其它客群差异很大,很容易区分出来。
也就是说,在放贷之前,其实这个客群就已经能检测出来了,这部分其实是可以规避的!在放贷之前就可以检测到一部分的风险。只是目前P2P公司缺乏专业的数据挖掘人才来及时发现它。
同时,这也意味着,目前P2P行业的客群是很复杂的,简单的打分标准根本无法处理所有的客群。而要对各种用户群体制定不一样的风控措施,以适应各种情形下的风控需求,达到真正的风险可控的水平,必须要靠基于大数据的风控措施来解决。
目前,由于大数据投入的昂贵和人才的匮乏,每家公司都去搞自己的大数据是不现实的。我们北京数云普惠科技有限公司致力于提供基础性的标准化的大数据云服务,帮助所有的金融企业提升基于大数据的业务拓展和风险控制能力。
这个服务将从两个方面帮助互联网金融公司解决问题,一个是“快”,即,如何利用数据源来替代掉之前繁琐的人工数据获取的工作。我们正在研发开放式的数据接口,所有数据源都可以对接过来,在合法的前提下,可以方便地出售给金融公司使用。也就是尽量让获取渠道线下线上化。比如之前验学历证现在直接通过API进行软件查询。
同时我们也会把各种应用场景集成过来,不仅给互联网金融公司提供数据,也提供场景,促进互联网金融融入进各种场景中,融化在各种场景的背后。
另外,通过建模评估我们也希望寻找可替代的数据源。可能原来使用数据A和B,现在发现使用数据C和D效果一样的。但C和D可以在线以远低于A和B的成本获取到。
第二个就是“准”,即如何利用大数据技术以达到更好的风险控制。比如我们深入挖掘不同客群的风险情况,捕捉风险的信号,以帮助客户即时调整风控的策略。这个里面单家P2P公司的往往不具备足够的训练样本,客户信息脱敏化之后的共享将能帮助所有的p2p公司走出困境。而这个共享将在我们的平台上方便的完成。这个就是共享经济。
我们是一个由海归大数据博士创业团队,自身在数据建模方面有丰富的经验,我们愿意与各种有应用场景的公司和有消费金融业务的公司合作。无论您是有数据源想要做大数据金融,还是缺乏数据源想要开展大数据风控驱动的消费金融业务,都可以来找我们合作。
今天我的分享就到这里,谢谢大家!
下面我要补充分享两件事,一件事是我们要在今天缅怀一代巨星张国荣的离去,让我们更加珍惜精神的富足和充满对理想生活的追求。
第二件事是分享一个科学的最新发现。世界上最高等精英都没有意识到但也不得不承认的三个事实:
1.你不可以将肥皂水放在你的眼睛里。
2.你数不了你有多少根头发。
3.当你舌头伸出来的时候,你就不可能再用嘴去呼吸。
互动交流:
Terry: 怎么确保数据的真实性?
孙林: 针对这个问题我是这样看待的,数据的绝对真实会累死人的。算法要有容错性才好。
戴星(风控老头): @孙林(大数据分析Ceo)我琢磨着未来要用单维度创造出几个复合性指标,让指标与信贷结果强相关。但这里面数据的真实性鉴别是第一位的
孙林:@戴星(风控老头) ,以我们过去在多个领域的经验,您这个思路可能会遇到很多问题。单维度的指标解决复杂的问题还不常见。
豫章文 赛威特投资 小贷供应链投资: 前面的分布图中。取了哪几个维度的数据
孙林:我们的用户画像只用了几十个维度,主要有地域,年龄,性别,职业,家庭状况,等等。
戴星 心意贷 风控总监:回到根本,还要依赖基础的风控逻辑验证真伪,有些P2P延用银行小贷打分卡,逻辑没搞清就当真理用
月球人: 那么p2p该怎么改善?@戴星(风控老头)
戴星 心意贷 风控总监: @月球人..打分表各因素与你做的信贷产品结果有无相关性,以及各因素间的逻辑关系应先分析明白,也就是先做自己产品的风险分析后再设计
Terry:能做到收集大量数据,并进行数据整理,提供可靠的数据就很了不起。
孙林:我们有几十万的数据,风险发现的越靠前,损失就越小。当然,有些异常不经过验证,还不一定详细。发现异常了,我认为可以先小范围测试一下。测试好了再上也不迟。
李昊@wecash(闪银奇异)cio:大数据的一个特点就是相对的真实性
Terry:如果有可控的数据,很多机构是有能力做出适合自己的产品的,效率也不会有问题
梅友人 上海浦发总行 大数据:交叉验证
李昊@wecash(闪银奇异)cio:同意@孙林
孙林:我们欢迎跟所有的合法的数据源合作,与互联网金融企业一起来做互联网金融,共同分享蛋糕。