在线投诉 | 邮件投诉 | QQ投诉 | 4006-400-312
当前位置:资讯首页 > 信用解读 > 正文
分享到:
    
解码大数据征信
2016-05-24 10:30:45 来源:36大数据


 

长久以来,我国征信市场都是以央行为主导的单一格局。央行征信系统主要收集以银行信贷信息为核心的企业和个人信息,截至2015年4月底,该系统收录自然人8.6亿,其中有信贷记录的3亿人,收录企业及其他组织近2068万户。  

所以,不管是在用户的覆盖面还是数据的多样性上,央行征信系统都有很大的局限性。如何满足其他没有征信记录的5亿多人的金融需求?这便是大数据征信所觊觎的市场机会。  

传统信用评估模型是根据一个人的借贷历史和还款表现,通过逻辑回归的方式来判断这个人的信用情况。而大数据征信的数据源则十分广泛,包括电子商务、社交网络和搜索行为等都产生了大量的数据。  

这些数据在信用评估中的效用究竟如何?大数据征信是言过其实,还是真的风控神器?群雄逐鹿征信市场,谁能成为最后的赢家?从金融服务到生活服务,中国的个人征信机构究竟有何“野心”?  

带着以上问题,《第一财经日报》于近日专访了芝麻信用的总经理胡滔、腾讯征信总经理吴丹、FICO中国区总裁陈建、京东金融消费金融总监许凌、芝麻信用首席科学家俞吴杰、美国Zest Finance前模型组创始人顾凌云等。  

一. 解码大数据征信:征信市场新格局  

个人征信牌照的发放久拖未决,但央行于近日率先发布了一份《征信机构监管指引》(下称《指引》)。业内普遍认为,该文件的发布正是为了给个人征信牌照的下发铺路。  

根据《指引》,监管部门对于申请牌照的机构提出了多项具体要求,包括个人征信机构设定保证金制度、股权变革的制度化管理等,以规范个人征信这个新兴行业的发展。  

但事实上,个人征信市场的参与者除了首批八家申请征信牌照的机构外,以拍拍贷、积木盒子为代表的P2P平台,以京东金融、宜信为代表的互联网金融公司,以FICO为代表的第三方机构均开始利用既有的数据和技术布局大数据征信业务。

征信市场新格局  

今年1月5日,央行下发《关于做好个人征信业务准备工作的通知》,个人征信业务正式“开闸”。腾讯征信、芝麻信用、深圳前海征信、鹏元征信、中诚信征信、中智诚征信、考拉征信、北京华道征信获准开展个人征信业务准备工作。  

其中,背靠蚂蚁金服的芝麻信用和腾讯旗下的腾讯征信因其用户覆盖面广、数据规模庞大、技术实力雄厚而最具竞争力。另外,前海征信因背靠综合金融集团——中国平安也被视为有力的竞争者。 

此外,考拉征信则汇集了拉卡拉平台上进行信用卡还款、转账、公共缴费等个人用户数据。华道征信的数据则主要来自其两家股东:新奥资本握有大量的居民燃气数据;银之杰旗下的亿美软通是中国三大电信运营商资深的战略合作伙伴。  

而另外三家机构中,中诚信征信和鹏元征信的大股东均是老牌的企业征信公司,以企业信用评级业务起家。中智诚征信是民营第三方征信公司,以“反欺诈”业务为主。  

其实,除了上述八家首批获准开展个人征信业务的机构外,不少拥有海量数据和技术基础的公司都在暗暗布局大数据征信市场。另据媒体报道,包括京东金融、百度金融、小米、宜信等30多家企业均有意申请第二批个人征信牌照。  

以京东金融为例,除了盘活集团内的数据资源外,京东还于今年6月宣布投资美国的Zest Finance。这家由Google前副总裁创办的互联网金融公司主要利用机器学习算法和数据技术帮助用户做出更精准的金融风控及营销决策。  

据了解,双方宣布成立一家名为JD-Zest Finance Gaia的合资公司,旨在利用Zest Finance在大数据挖掘和处理方面的技术构建京东自己的信用评估体系,目前Zest Finance的技术专家已经到位。 

另一家大数据征信市场的有力竞争者——宜信旗下的至诚征信也在今年6月发布一款针对P2P机构、小额信贷机构和银行信贷部门的风控产品,包括信用评分、个人借款数据、个人风险名单数据三块内容。 

此外,包括拍拍贷、积木盒子在内的P2P借贷机构也利用过去几年所积累的数据建立自己的信用评估体系。以拍拍贷为例,它于年初推出了基于大数据的风控模型——“魔镜系统”。

除了那些手握数据资源的公司外,围绕大数据征信领域的第三方技术和服务机构也开始涌现。例如,专注大数据挖掘的“百分点”、在在数据源上层完成数据分析和信用评估的“冰鉴科技”、“闪银”等。 

最终仅剩两三家? 

但值得注意的是,与其它很多行业不同,征信市场的“容量”却十分有限。 

对比美国,1960年代末美国的征信公司曾一度多达2200家,但随着行业不断发展和整合,如今已减少到400家左右。其中,艾可飞(Equifax)、益百利(Experian)和全联(Trans Union)三大巨头便占到了90%的市场份额。 

芝麻信用曾在内部提到,当下大数据征信还处于第一阶段,即个人征信机构跑马圈地、百花齐放;而到了第二阶段,征信行业或出现大规模并购,最大的两三家公司将占据市场60%以上份额或者更多,其他几家共享细分市场。  

这个预判基本已经成为行业共识  

顾凌云认为,中国的征信市场在三到五年之内不会一统天下,原因是因为到目前为止中国征信市场还处在第一步,也就是数据源整合这一步。但是在今后四五年之后应该会有两到三家成为最终的赢家。 

许凌认为,大数据征信需要前期投入巨大的人力、物力,不仅周期长且回报慢。尤其是个人征信这部分,对于数据、资金、技术,以及场景都有很高的要求,最终只会有两三家主导市场。 

眼下国内的个人征信市场刚刚放开,还处于群雄逐鹿的阶段。尽管首批仅有八家机构申请牌照,但在业内人士看来,相比牌照,数据和技术才是个人征信领域更为关键的门槛。  

平安证券在一份报告中称,根据征信行业的产业链,个人征信公司经营成功的关键在于:数据来源的范围和准确性、数据处理能力、数据产品是否能够满足客户要求、是否具有多样性。  

目前来看,除了获得牌照的机构之外,掌握信息搜索和网页浏览数据的百度、整合了电商、金融、生活服务数据的京东、积累了九年数据的互联网金融机构宜信、以及正在积极布局中国大数据征信市场的FICO都是有力的竞争者。 

二. 解码大数据征信:大数据征信的“是与非” 

 

传统信用评估模型是根据一个人的借贷历史和还款表现,通过逻辑回归的方式来判断这个人的信用情况。而大数据征信的数据源则十分广泛,包括电子商务、社交网络和搜索行为等都产生了大量的数据。 

大数据征信可以通过我们在互联网上留下的这些“足迹”清晰地描绘出一个人,但如何把控数据源的“量”与“度”,各家机构还在不断尝试。更重要的是,最终绘制出的人物“肖像”与个人信用究竟有多大的关联度,至今仍存有争议。 

此前亦有接近监管部门人士对《第一财经日报》记者表示,个人征信牌照迟迟未能落地,其原因之一也在于监管部门对于大数据征信的商业化应用存有疑虑。尤其,以人脸识别为代表的关键技术的可靠性还有待进一步检验。 

何为大数据征信? 

在FICO中国区总裁陈建看来,征信的本质就是采集和记录信用信息并在整理加工后提供给决策者,而如今,得益于大数据、云计算、人脸识别、深度算法等技术的进步,征信有了更广泛的意义和用途。 

“只要对消费者的特征描绘和风险判断有显著作用的就可以叫征信。”陈建认为, 现在一切信息皆可以成为信用数据,经过分析后用于证明一个人或企业的信用状况。因为数据覆盖广、维度多,因此形成了广义的征信,也就是大数据征信。 

陈建表示,有价值的大数据具备几个因素:第一要覆盖面广,用户足够多,例如银联、电信的数据;第二维度要有效,能够有效转为结构化的数据,例如电商的数据;第三信息要稳定。 

不过,对于这种日益崛起的征信新业态,今年7月在上海外滩举办的“2015上海新金融年会”上,央行征信中心副主任王晓蕾直截了当地提出了疑问,“我不知道你们说的‘征信’是什么”? 

央行的征信系统是一个“放贷人之间的信息共享数据库”,主要采集的数据位身份信息、信贷信息、非金融负债信息三类,以及部分公共信息。因此,王晓蕾对于征信的基本定义为,“从放贷人那里采集借款人信息”。 

而另一个“纠结”的概念在于,王晓蕾认为,放贷机构之“征信”是放贷机构基于内部信息的风险管理过程,而征信行业之“征信”是为放贷机构的风险管理提供外部信息支持的活动,征信机构应该是一个纯粹的独立第三方。 

如果按照这个界定,我们现在所谈到的大数据征信跳脱了传统“征信”范畴内。不再局限于金融属性的信息,并且也打破了“采集者与信息产生没有任何关系”的独立第三方原则。

例如芝麻信用、前海征信、腾讯征信,一方面它们的数据来源目前还主要来自母公司阿里、平安、腾讯,而另一方面,它们的兄弟公司又涉足放贷业务,例如阿里小贷。 

尽管有关大数据征信的定义和效用仍争议不断,但对于既无法接入央行征信系统又面临快速发展的互联网金融行业而言,利用大数据来帮助判定风险、开拓业务已是必然的选择。 

从应用范围来看,目前大数据征信已从金融业务向生活服务蔓延。其中,最核心的两个价值就是:防范欺诈风险和信用风险。简单来说就是:既要证明“你是你”,还要描述出“你是什么样的人”。  

如何证明“你是你”? 

无论是在传统金融领域,还是互联网金融领域,给客户做信用评估的前提是必须知道这个人就是他自己。所以,如何利用证明“你是你”是大数据征信首先要解决的问题。  

尤其,随着越来越多的金融业务互联网化,“反欺诈”面临的挑战也日益增大。“身份认证”的重要性在各项监管文件中反复被强调,而各家机构也在不断探索如何利用新的技术在网上实现身份的核实。 

其中,在指纹、虹膜、人脸识别等一系列生物识别技术中,人脸识别因其技术的成熟度和准确率,以及使用的便捷性而被进一步普及。包括腾讯征信、芝麻征信在内的多家个人征信机构都有组建自己的人脸识别技术团队。

此前,在腾讯征信的北京媒体沟通会上,为腾讯财付通、微众银行、腾讯征信等提供图像和模式识别技术支持的优图团队也向大家展示了“人脸识别”在“反欺诈”方面的应用,即如何证明“你是你”。 

根据现场的演示,在上传身份证照片、自拍照片并与公安部的信息进行比对之后,“人脸识别”的另一关键步骤是活体检测,通过读取随机的数字串,分析声音和唇语等信息来防范有人用视频、照片等方式来仿冒用户。 

据了解,在今年国际权威的人脸识别数据库LFW上,腾讯优图团队在人脸验证测试中达到了 99.65%的准确率。目前,微信的“人脸识别”技术已经在腾讯征信、微众银行、微证券开户等场景中开始试用。 

尽管人脸识别的准确率已经达到较高水平,但该项技术的商业化应用才刚刚起步,它的有效性和安全性仍备受质疑。

优图团队研发总监黄飞跃也表示,该技术现在还不能说100%的成熟,而是适用于某些特定的应用环境中。其中,金融领域的身份核实条件较好,由于用户往往是为了通过验证(例如支付)所以比较配合。 

芝麻信用首席科学家俞吴杰表示,整个的反欺诈产品从身份认证到信息验证再到网络关联,每一步的技术含量非常高。以身份认证为例,现在已有有很多的途径,比如信息交叉比对、人脸识别技术、KBA问答认证等。  

他以网络关联技术为例说明到,它能把所有出现过违约行为的身份,手机,设备等关键点都在风险库里面分门别类的保留下来,我们可以通过一层或者多层关联找出所有的风险点供合作伙伴参考,这对技术和硬件要求都是非常高的。 

争议大数据征信 

解决了“身份认证”的问题,接下来就要评估你的信用,即描述出“你是什么样的人”。  

在关于大数据征信的文章中,我们经常可以看到一些案例,如经常半夜上网的用户可能被认为没有稳定的工作而降低信用评分,买双开门冰箱的用户可能因为有家庭而信用评分较高,微博更新频繁的用户可能因为社交活跃而信用评分较高等。  

“这些考量因素被过度放大了,也许这只是用户个人习惯而已。但每一个因素与个人信用的相关性有多大?我们还无法完全解释,尤其当数据源不足够丰富时,这些评判便存在欠缺。”芝麻信用的技术专家景艺亮表示。 

冰鉴科技CEO顾凌云在回国前曾领导并开发了Zest Finance前四代风控模型,在他看来,大数据征信的核心并不是对某个变量极其依赖,而是把很多个都只有微小影响的变量通过非线性的算法整合在一起,从而使模型的整体表现更好。 

“大数据其实并不一定就是数据量本身大,我们讲求的是变量涵盖的信息纬度要多和均衡,然后才是能够通过浅度学习和深度学习等多种复杂的算法把这些变量更有效地柔和在一起。”他表示。  

王晓蕾认为,互联网记录了借款人以前不可记录的行为,获得了以前无法、或成本很高的数据,有利于为放贷人了解借款人是谁、有没有还款能力和还款意愿提供了新的渠道和方法。但是,相关的信息究竟如何使用有待进一步研究验证。  

王晓蕾引用2014年美国政策与经济研究委员会(PERC)的一项研究结果称,非金融信息在信贷决策中的作用有限。例如,研究就初步发现,社交信息对于判断借款人的还款意愿和能力暂无预测力。 

“而诸如水、电、煤、有线电视、手机等非金融信息纳入征信系统,显著地提高了薄信用档案人群的信贷获得能力,但对于厚信用档案人群而言边际作用不大。”她表示。  

“只有好样本,没有坏样本是无法建立有效的信用评估机制。” 宜信至诚征信的董事总经理赵卉表示,电商、支付、社交等数据只能作为信贷审核的参考值,而贷后数据才是强参数。  

对于这种论断,互联网公司们显然是不赞同的。  

腾讯征信总经理吴丹告诉记者,从这段时间内测的结果来看,在模型中加入社交数据以后,对它的风控能力有20%—25%的提升,尤其在小额贷款领域。因为,通常一笔几百块的借款,违约发生的原因不在于借款人的还款能力而是意愿。  

俞吴杰表示,通过大量的研究证明,人的行为数据和他的信用有直接关联,因为行为很难撒谎。从这段时间公测的结果来看,用户的芝麻分越高,其贷款的违约率越低,二者呈单调、线性的关系,这也证明了芝麻分在信用评估上的有效性。 

不过, 仅仅依靠互联网上的数据并不足以建立一个强大的信用评估体系。显然,所有大数据征信的市场参与者都深知这一点。“在未来,把传统数据和创新数据结合到一起,一定是我们要到达的终点。”芝麻信用的总经理胡滔如此总结到。  

顾凌云告诉记者,风控模型本质上还是对一个人金融还贷能力的预测和评估,所以,尽管Zest Finance大量采用非传统的信用数据,但在大部分的风险评估模型中,传统的信用数据(银行信贷数据)依然占有一定的比重,平均也在40%左右。  

三. 解码大数据征信:谁会成为中国版“FICO” 

 

大数据征信导出产品的方式之一是构建一个可被广泛采用的信用评分体系,而从国外的经验来看,通过评分而不是数据报告的方式呈现征信结果,也是一个解决隐私保护问题最好的途径。  

因此,目前多家机构都率先推出了各自的信用评分体系。例如,芝麻征信的“芝麻分”、华道征信的“猪猪分”、拉卡拉征信的“考拉分”、前海征信的“好信度”、腾讯京东金融的“白度”、拍拍贷的“魔镜分”、腾讯的信用星等。 

从呈现方式来看各不相同,例如,“芝麻分”的范围在350分到950分之间,分数越高代表信用程度越好;“白度”则是从0到100度;腾讯的信用评分则沿用QQ体系的习惯,用星级而非数字体现,七颗星为最高信用级别。  

但比FICO“野心”更大的是,中国的个人征信机构正试图把信用评分体系的应用范畴从金融领域扩展到生活领域,从租车、租房,到婚恋、求职等等。甚至,它们希望从改变大众对信用的认知到提升社会的信用体系。  

谁能打破数据孤岛  

在谈及征信业务的发展时,大部分接受《第一财经日报》采访的人士都提到了FICO分。尽管中美两地的征信市场存有差异,但像FICO一样形成一种被普遍采用,并具有行业标准价值的信用评分体系却是各家征信机构都在努力的方向。  

事实上,作为美国著名的个人消费信用评估公司,FICO本身并非一家征信公司,而是提供决策和分析管理技术的第三方服务机构。由于美国三大信用局都使用FICO分,每一份信用报告上都附有FICO分,以致它几乎成为信用分的代名词。  

FICO中国区总裁陈建在接受本报专访时表示,中国不缺数据,不管是阿里的电商数据,还是腾讯的社交数据都是可靠、大量且真实的,对于刻画消费者的特征、风险有很好的作用,但是目前中国还没有除央行以外很好的评分体系。  

在他看来,中国建立一个全民评分体系的挑战在于:个人征信市场刚刚放开,很多数据源之间还是一个相对封闭的“孤岛”,例如传统金融机构与互联网公司之间是基本隔离的两套体系,每一家互联网公司之间又是各自独立的一套体系。 

由于“数据孤岛”的存在,尽管现中国已经出现了很多信用评分体系,但距离一个能够覆盖全民的,被普遍认可的标准分还有不小的差距。那么,显而易见的是,谁能率先打破数据割裂的状况,谁就有望成为最终的那两至三家胜出者。 

所以,眼下各家机构除了努力盘活自身的数据资源,也在积极地寻求外部数据源。这既是征信业务本身的需要,更是中长期的战略需求。 

以芝麻信用为例,目前其数据来源包括阿里体系内的电商交易数据、互联网金融数据,集团体系之外的公安网、最高法、工商、教育部等公共机构以及合作伙伴数据,以及用户上传的数据等。 

而腾讯征信方面,除了拥有腾讯8亿QQ账户、超过5亿的微信账户、以及超过3亿的支付用户以及其他多种服务上聚集的用和社交数据外,腾讯也不断利用在基金、理财、贷款、支付等领域的业务整合更多的数据资源。 

但由于它们的兄弟机构多有涉略信贷或相关业务,例如阿里小贷、微众银行等,因此不少业内人士忧虑,这种既当裁判员又当运动员的做法可能在未来整合资源的过程存有障碍。 

而FICO正是瞄准了这个“空隙”。作为信用评分领域的标杆企业,尽管FICO在中国缺少数据资源,但它希望利用自己多年积累的“独立第三方”服务机构的口碑,通过技术优势另辟蹊径、杀出重围。 

据了解,FICO已在内部成立了互联网金融事业部,专注开发适用于中国市场的大数据征信产品。它希望通过“云计算”技术在“云端”建立一个数据共享机制,打通“数据孤岛”。  

从金融到生活场景  

要形成一套具有行业标准价值的信用评分体系,除了数据来源要足够丰富和多元,更重要的是它必须被广泛的采纳和使用。  

根据腾讯征信总经理吴丹的判断,未来一两年里,越来越多的金融产品会往线上迁移,向着快速便捷的方向发展,从国外和过往的经验来看,越是便捷的产品面临的风险越大,尤其是欺诈风险。  

从各家征信机构披露的进展来看,大数据征信的产品主要可分为两大类:反欺诈产品和信用评估产品。而适用范围则是从商业银行等传统金融机构,到P2P等互联网金融公司,甚至生活类的各种场景。  

在银行合作方面,目前芝麻信用与北京银行信用卡中心、腾讯征信与广发银行信用卡中心的合作均已展开,商业银行希望通过引入更多元的信用评估机制来删选客户。  

此外,涉足信贷业务的P2P平台、消费金融公司对大数据征信产品也有着强烈的需求。例如,P2P平台积木盒子的消费信贷产品“读秒”,面向大学生群体的趣分期等都对接了芝麻信用,对于每位借款人,芝麻征信都会给出一个信用评估结果。  

前海征信也在不久前上线了针对P2P机构的三大系列、十款征信产品,并于陆金所联合推出了P2P行业的“人民公社”,为P2P平台提供获客、增信、产品设计、征信、系统平台、催收等服务。  

但与专注于金融领域的FICO分不同,国内的机构一开始便把信用评分体系的适用范围放宽到了衣、食、住、行的生活场景中。  

腾讯征信希望把个人信用与商业、生活、住房、消费等相结合,而芝麻分的应用场景也已经延伸至神州租车、一嗨租车等租车网站,全国6千多家酒店,签证服务,甚至婚恋网站。  

今年5月,考拉征信也联合了嘀嘀打车、爱大厨、E袋洗、e保养等众多商家开展名为信用圈的活动,希望把考拉分覆盖到衣食出行、居家养生、爱车保养等多个领域。  

芝麻信用首席科学家俞吴杰认为,数据的应用有两个方面,一个是偏好,一个是信用。当下,在互联网革新商业的这个过程中,数据可以帮助商业机构更好的进行决策与转型。不过,把具有强金融属性的信用评分体系应用于生活场景,这在其他国家并没有先例。 

据了解,目前信用分从模型开发的样本选择,特征选择,到最后的性能评估,都有一套非常完整的,跟金融和征信密切相关的体系。“它在生活场景中是否有用?”这也是芝麻信用的科学家们所担心的问题。  

据俞吴杰介绍,经过了半年的测试和大量的研究表明,芝麻信用分对用户有较好的分辨能力。“如果一个人有持续的、良好的借贷还款行为,那么他在其他各个场景当中都会有类似的延续性、惯性在里边。” 

在冰鉴科技CEO顾凌云看来,大数据就是解决传统数据仓库所不能解决的问题,实现一切皆可数据化、一切皆可量化、一切皆可预测。按照顾的逻辑,随着大数据挖掘和分析能力的进步,它可应用的范围还将越来越广。  

从各家机构的发展规划来看,除了通过类似生活场景的开拓与传播增加个人征信的适用范围外,它们更大的“野心”在于,从改变大众对信用的认知到提升社会的信用体系。


分享到:
相关文章