☞【大数据100分】百融金服CEO张韶峰:大数据重构中国信用体系
主讲嘉宾:张韶峰
主持人:中关村大数据产业联盟副秘书长 陈新河
承 办:
中关村大数据产业联盟
金融大数据专业委员会
嘉宾介绍:
张韶峰:百融金服CEO,张韶峰先生是国内第一家专注于大数据与推荐引擎的互联网技术公司百分点集团的合伙人兼金融事业部负责人,清华大学电气工程自动化学士、硕士。2014年,张韶峰先生创建百融金服,作为大数据应用的首批践行者,立志把百融金服打造成为国内金融领域最大的第三方风控及营销服务提供商。并以传播诚信文化理念,开拓诚信生态环境为己任,为国家全民信用体系的建设及普惠金融的实现贡献一己之力。张韶峰先生最初以管理培训生身份加入全球最大的企业软件公司甲骨文大中国区数据挖掘与商业智能软件部门。之后加入全球最大的IT解决方案提供商IBM,负责商业智能与数据挖掘以及智能分析方案。并创建了天才博通公司,在天才博通期间一手打造了国内第一个SaaS模式的数据挖掘软件系统(Geni-sage Data Mining),时间序列预测效果效果远超欧洲领先水平,获得业界认可。
以下为分享实景全文:
张韶峰:百融金服是一家专业提供大数据金融信息服务的公司。公司依托大数据技术及来自互联网、金融机构、线下零售、社交、媒体、航空、教育、运营商、品牌商等多维数据源,创新性地为金融及相关行业企业提供获客引流、精准营销、客群分析、风控管理、反欺诈、贷前信审、贷后管理等服务,提升金融行业整体运营管理水平。
2014年3月,我们受邀成为石景山互联网金融中心首批入驻企业之一,也是区政府重点扶持企业,并在2014年12月成功取得企业征信牌照。目前,百融金服已经和建设银行、招商银行、光大银行、平安集团、新华保险、中国人寿、太平洋保险、人人贷、陆金所、上海大众等70余家金融机构达成合作协议。
我一贯认为,互联网以及随之产生的大数据开启了一次重大的时代转型,并逐渐渗透和改变着我们的商业、生活以及理解世界的方式,仿佛一夜之间,大数据就成了几乎全民关注的热词。毋庸置疑,大数据正在成为新发明和新服务的源泉,而且酝酿着更多的改变。那么,问题来了,什么是大数据?有何特别?如何运用和发展?
一、大数据基础
大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。有一个普遍且常见的误解是:大数据=数据大,而事实上,除了数据量大这个字面意义,大数据还有两个更重要的特征:一是跨领域数据的交叉融合。
同领域数据量的增加是加法效应,不同领域数据的融合是乘法效应
二是数据的流动。
数据必须流动,流动产生价值。到了今天的互联网时代,我们发现即使企业已经打通了内部各个部门之间的数据,但与整个互联网比起来,数据量仍然微乎其微,数据应该以互联网为媒介在企业之间某种形式的流动。
大数据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家国内生产总值的绝大部分份额。
那么哪些传统企业最需要大数据服务呢?
金融行业绝对是其中之一
首先,金融业并不销售任何实体商品,它自诞生起就是基于数据的产业。
其二,由于国家管制,金融业在前几年享受了非常好的政策红利,内部变革动力不足。
而目前金融业已经逐渐开始放松管制,新兴的金融机构必将利用互联网以及大数据工具向传统金融巨头发起猛烈攻击。传统金融机构在互联网方面的技术积累和数据积累都不足,要快速应对新进入者的挑战,必然需要大数据服务。
其三,社会对普惠金融的需求日盛,以前被传统金融机构忽视的“屌丝市场”正在以小而美的中长尾效应吸引更多的民间金融力量涌入。
下面我将重点阐述一下对大数据重构中国信用体系的一些思考。
各位都了解,自去年以来,国家密集出台开展社会信用体系建设的各种规划和实施意见。
由此预判,未来几年,应该是在国家主导下、在市场机构的参与下,共同探索和建立全民社会信用体系。
目前,中国的零售金融领域以及征信领域,落后于美国二三十年,但是互联网领域却只和美国相差两三年,甚至在某些细分领域还领先于美国。这样的差距以及中国巨大的市场机会,使得中国的金融发展不会走和美国相同的路径,而是会利用最先进的技术如移动互联网、云计算、大数据技术,跳跃式发展到一个新的模式阶段——互联网金融和大数据征信。
这个预测并非空穴来风,人民银行潘功胜行长在近期一次公开会议上特别提出,利用新技术条件发展新业态征信是需要积极面对的课题。央行对大数据公司进入征信系统持开放态度,并称预计不久将有大数据公司进入征信市场提供征信服务。
利用大数据来做征信,就是要把多种类型的数据绑定到一起,那这些数据怎么来,如何去组合,怎么计算,摆在我们面前的既是机会也是挑战。
我想给大家介绍的是,(一)传统的风险建模思路
20世纪50年代,一位工程师费尔(Bill•Fair)和一位数学家艾塞科(Earl•Isaac)发明了一个信用分的统计模型,80年代开始在美国流行,如今它是美国费爱哲(Fair Isaac)公司的专有产品——费爱哲评分(FICO)。美国三大征信机构都使用该信用分,每一份信用报告上都附有该信用分,以致费爱哲信用分成为信用分的代名词。
费爱哲信用分模型(以下简称传统模型)利用高达100万的大样本数据,首先确定刻画消费者的信用、品德,以及支付能力的指标,再把各个指标分成若干个档次以及各个档次的得分,然后计算每个指标的加权,最后得到消费者的总得分。传统模型的打分范围是300~850,三大征信机构各自输出自己的信用分数,分数越高,信用记录越好,三家的分数不能完全替代使用,但差别不大,相差在20分以内。
传统模型计算的基本思想是把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。其主要采用的变量有:信用记录时间、信用额度、借款逾期记录、房屋按揭还款记录、用款占信用额度的比例、坏账记录等,其中付款记录和借款情况占比最大,合计占有65%的比重。大多数美国银行对个人信用评估时,会在该基础上再添加本行的其他一些侧重指标。
可以看出传统模型需要的输入信息主要是金融、财务、借贷类数据(以下简称为金融数据),输出信息是金融风险评分,输入和输出同属金融信息。欧美国家金融产业发达,征信体系也已经发展了数十年,金融数据相对充足,传统模型在欧美还是比较有效的。模型输入的约10多个变量都来自于金融行业自身,对于预测违约风险是比较有效的,属于强变量。
据人民银行征信中心统计,我国只有3亿多人以前和银行发生过借贷关系,也就是说全中国只有20%多的人口拥有相对可靠的金融数据,针对这20%多的人口,传统模型可以相对可靠地预测他们的信用风险。而对超过70%的历史上尚未与银行发生借贷关系的人口,传统模型就无法有效地评判了。
这个问题如果无法解决,就会严重制约中我国金融业的发展,进而制约消费,影响到我国经济结构的转型。
那么经过不断的尝试和探索,我们是如何做到呢。
从2013年开始,我们依托自身的数据能力逐渐推出了我们的百融用户评估报告和百融信用评分
百融的用户评估报告非常丰富,包括以下数据维度
百融的数据价值也是非常高的,包含:
我们的百融评分是基于我们众多维度的数据和先进的机器学习算法构建出来的
经过实践,我们对比传统评分,优势明显
目前,百融评估报告和百融评分已经在很多金融机构中进行广泛应用
并得到良好效果反馈和用户好评
我们提出的线上、线下融合的大数据风险建模,已经被越来越多的金融机构逐步认可
我再给各位朋友详细介绍一下百融用户评估报告和百融评分的实践效果。百融金服与国内排名前十的多家全国性股份制商业银行及多家排名前十的P2P公司分别开展了多轮实测。
其中,商业银行A个人风险评估:经过2轮共50万真实用户的测试,基于百融金服用户评估报告,可以将该行线下发展的个人用户的不良率(M3不良率,下同)降低至之前的1/2,将线上发展的个人用户的不良率降低至之前的1/3。
某领先的P2P公司个人以及小微企业风险评估:线上客户整体匹配率66.77%,线下客户整体匹配率43.50%。可以将线上线下客户不良率降低到以前的1/2;
考虑到我们与客户签订的保密协议,在这里我就不便透露客户名称了,请见谅。如果大家有兴趣,我们可以私下交流。
商业银行B个人风险评估:经过1轮共30万真实用户的测试,基于百融金服用户评估报告,可以将该行线下发展的个人用户的不良率降低至之前的1/1.6。
商业银行C个人风险评估:经过2轮共20万真实用户的测试,基于百融金服用户评估报告,可以将该行线下发展的个人用户的不良率降低至原来的1/1.4;对于没有人行征信报告的用户,百融金服将风险评估模型的KS值从之前的0.28提高到0.45。
某领先的P2P公司个人以及小微企业风险评估:线上客户整体匹配率66.77%,线下客户整体匹配率43.50%。可以将线上线下客户不良率降低到以前的1/2;
某小贷公司个人风险评估:基于百融金服用户评估报告,已经将该公司不良率降低至原来的1/3。
我们发现,借贷申请人在某些变量上的表现具有很好的风险识别度和区分度,比如对某商业银行3、4线城市的个人用户来讲,用户在游戏、娱乐类活动上花费的时间费用越多,其信用评分越低(36分);相反,用户在教育、科学类活动上花费的时间费用越多,其信用评分越高(56分)。
基于此,百融金服与B银行展开了联合建模。模型显示不同分数段的人数基本成正态分布,随着信用得分的升高,该分数段人群的不良率也基本成一条下行线。
某金融机构的销售终端(POS)商户贷款风险评估。不少金融机构通过分析商户的POS机刷卡流水数据来给商户进行授信,销售终端流水数据可以看做是商户的收入数据。
根据台湾征信中心的量化建模经验,小微企业的企业信用40%的权重取决于小微企业主个人信用,20%的权重取决于该小微企业合作上下游企业企业主个人信用。不诚信的小微企业主可能会通过故意做大刷卡流水数据的方法进行“刷信用”,从而达到骗贷目的。
通过“POS流水数据+商户户主个人数据”两类数据联合建模来预估商户的套现风险以及销售终端贷款违约风险,均发现百融金服模型具有较强的指示作用,主要体现在信息的真实性和商户行为特征上。
列举两个有趣而且有效的发现(即小微企业信用与小微企业主的个人行为有较强的关联):如果显示商户在游戏、动漫、娱乐等类目上消费级别高,则风险很高;如果显示商户在经管、科技等类目上活跃度较高,则风险较低。
某小贷公司手机端小额授信风险评估:该小贷公司的某几款产品只通过手机应用程序接受用户申请,贷款额度在500元至5000元之间,主要瞄准3、4线甚至4、5城市。
与上面介绍的其他案例相比,该案例的独特性在于:一是手机应用程序能够获取手机的硬件编号,如果模型发现该编号的手机在一段时间内变换申请人身份信息在本机构或数家机构之间多次申请贷款,则该手机对应的申请者存在较高的欺诈嫌疑;
二是手机应用程序能够获取申请者的地理位置,如果模型发现申请者在申请时的位置与他在申请表上填写的地址距离较大,那么该申请者风险较高。
以上是我们在实践应用中得到的一些经验,希望向各位朋友学习、请教。
最后,我还要在此呼吁:随着大数据时代的到来,未来征信业发展要从制度设计、技术进步、信息共享、监督管理、隐私保护等方面不断创新,促进征信业在大数据背景下更快更好地发展。尽快建立符合大数据的征信法律制度和业务规则体系,本着兼顾制度保障和鼓励创新的原则,指导和确保大数据时代征信业发展有法可依。
尽快打破政府以及各个垄断资源、机构间的信息孤岛,规范和统一数据标准和格式,推进建立数据融合、共享以及对外开放的机制,降低金融行业乃至整个商业社会的征信成本进一步推动政府与社会各界公开失信人、失信机构信息,推动全社会对失信人与失信机构进行联合惩戒,提高失信成本。