‍作者:李玉洁 苏筱芮

来历:麻袋研究院

作为人工智能的重要分支,常识图谱不只能够发现数据之间的联络,而且能运用联络进行推理,然后赋予数据更多价值。正因为有着这样强壮的法力,常识图谱被运用到了查找、地图、个性化引荐等各个范畴。

而消费金融,作为一个对数据具有强依赖性的范畴,对常识图谱的运用有更实在的需求,现已开展出包含反诈骗、失联客户办理、精准营销、智能查找和可视化、问答交互在内的多种运用方法。

麻袋研究院以为,尽管运用方法多种多样,可是因为数据量少且非标准化以及建模较难的原因,导致常识图谱在消费金融范畴的运用还处于初级阶段,没有构成大规模运用。

一. 常识图谱概述

常识图谱本质上是描绘客观国际中实体及其之间的联络的一种语义网络,由节点和边组成。在常识图谱中,每个节点表明实践国际中存在的“实体”,每条边为实体与实体之间的“联络”。

语义类型中最顶层抽象类是实体。其间,实体可分为概念实体和物理实体。概念实体简略了解便是没有详细实体的目标,如法律法规,医学常识等等。物理实体指的便是实实在在存在的实体,如杯子,汽车轮胎等。

三元组是常识图谱最通用的表现方法。所谓三元组,便是由一个表明主语的节点,一条表明谓语的边和一个表明宾语的节点组成一条记载。当围绕着一个主语有很多用三元组表明的联络呈现时,就构建了常识图谱。

常识图谱与其他信息源不同之处是它能够由计算机直接拜访,而无需任何的人工介入。因为计算机只了解正规的言语,所以常识图谱中包含的信息一般被称为结构化数据,而非结构化数据(如纯文本)只能够被人类了解。

从技能层面规划上来说,常识图谱有必要考虑两个根本的权衡:一是常识图谱应该具有满足的描绘性,以便杂乱的常识能够被机器编码;二是这种描绘性应该满足的简略,以便计算机能够快速的处理它们。

从范畴上来说,常识图谱可分为通用常识图谱和特定范畴常识图谱。通用常识图谱包含了很多的实践国际中的常识性常识,着重的是广度;特定范畴常识图谱面向特定的笔直范畴,着重的是深度。在实践中,常识图谱的运用趋势逐步从通用范畴走向特定范畴。不同职业都在重视合适本身的常识图谱技能的运用方法,但现在仍未构成大规模运用。

二. 常识图谱在消费金融范畴的运用

当时,常识图谱在消费金融范畴的运用仍处于起步阶段,首要运用包含反诈骗、失联客户办理、精准营销、智能查找和可视化、问答交互。

1. 反诈骗

反诈骗是对包含买卖诈骗、网络诈骗、电话诈骗等诈骗行为进行辨认的一项服务,而常识图谱的反诈骗计算是对反诈骗剖析实时性的完美表现。

常识图谱在消费金融范畴反诈骗方面的运用包含贷前批阅和贷中预警。据麻袋研究院了解,现在常识图谱在消费金融范畴的运用,首要会集在贷前批阅办理。

在贷前的批阅阶段,将告贷人的根本信息、消费记载、行为记载、联络信息等整合到反诈骗常识图谱里,比方看客户一度、二度联络是否触黑,以及客户消费相关商家是否反常等。一同,运用不一致性查验,对告贷人的危险进行剖析和评价。比方当两个告贷人填写了相同的电话号码时,这种不一致性很或许就有诈骗行为。

一同,常识图谱还能够有用鉴别集体诈骗。鉴别集体诈骗的方法有两种:榜首,依据之前符号的黑名单客户,运用常识图谱确认与其有严密联络的诈骗用户。依据查询,与黑名单客户有很多相关的告贷用户的坏账率一般是未相关用户的2.9倍;第二,依据集体诈骗会同享部分信息的特色,运用常识图谱发现不同用户之间的信息相关性,然后辨认诈骗集体。

在贷中的买卖阶段,经过构建已知的首要诈骗要素(如设备、账号、地域等)的联络图谱,全方位监控告贷人的危险数据,对潜在诈骗行为作出及时反响。即便诈骗分子修改了登陆时刻和地址之类的行为头绪,常识图谱依然能够发掘出共用设备、共用IP等可疑特征,然后辨认诈骗事情。

以中腾信为例,其关于常识图谱的反诈骗运用,已相对老练。贷前阶段,中腾信运用常识图谱技能对海量请求材料做快速匹配,大幅进步实时贷前反诈骗的作用。一同运转恰当的实体链接剖析查询,实时阻挠高档的集体诈骗场景。贷中阶段,经过将实时数据归入常识图谱模型,完成贷中的监控和额度办理。

2. 失联客户办理

在贷后办理中,常识图谱也发挥着重要作用。当告贷人不准时还款而且“失联”时,催收人员的作业难度加大。据专业人士奉告,现在贷后办理对常识图谱的运用,首要是结合告贷人授权的通话记载,发掘出与告贷人有联络的、且在相同渠道借过款的新联络人,然后从头取得与告贷人的联络,进步催收成功率。因为技能难度不是很大,已构成广泛运用。一同,各消费金融组织也在进一步扩大数据维度,比方作业单位等。

3. 精准营销

常识图谱在精准营销中的运用有两种方法。

榜首,了解用户。经过常识图谱聚合用户的根本特点,如年纪、学历、消费习气、查找习气等,将这些根本特点加以分门别类,构成不同的用户标签,展现不同类别用户的身份特质及详细偏好。然后剖析客户潜在需求,进行精准推送。

第二,发掘潜在客户。依据现有用户的交际网络常识图谱,依据往来方法和频次等交际行为树立联络模型,然后完成潜在用户的拓宽。此外,还能够结合一切用户的标签特征,运用社区算法为大局用户进行用户细分,辨认躲藏在数据深处的价值用户。

据麻袋研究院了解,现在第二种方法更为常见,首要是经过告贷人之间的引荐联络,发掘为渠道带来很多资金和新客户的引荐人,剖析这些引荐人的特征,然后开展新的具有相似特征的客户。

4. 智能查找和可视化

经过常识图谱,查找功用能够在语义上扩展更多的查找关键词,然后获取更全面的信息,进行危险辨认和提示。比方查找某个人的身份证号,能够回来与这个人有关的一切前史告贷记载、联络人联络和其他相关的标签(如黑名单等)。然后经过图谱可视化技能,以图形网络的方法展现全方位信息,包含杂乱信息和躲藏信息等。

图6是宜信的智能查找体系。该体系不只运用公司内部堆集的前史数据,还用爬虫覆盖了100多个公开网站,如人法、工商、百度、生活服务类以及十几家网贷黑名单等。经过在体系中查找告贷请求人的身份证号,就能够索引出与请求人相关的悉数信息。

5. 问答交互

常识图谱在问答交互中最常用到的场景是文本客服,首要经过常识图谱创立常识库,在对用户问题进行语义了解和解析后,运用常识库查询、推理得出答案并反馈给用户。经过常识图谱,一切常识点以及衔接常识点的边都被与问句相关起来,极大程度地进步了应对的相关性和精确性。

三.常识图谱运用的含义及难

常识图谱关于消费金融范畴的含义显而易见,尤其是针对反诈骗环节。传统的反诈骗首要依据点,当呈现征信数据缺失乃至空白的新客户时,辨认其失期和诈骗危险的难度极大。此外,集体诈骗的盛行也给诈骗审阅带来应战。但经过常识图谱技能,可把各种信息整组成网状,比方发掘客户与多种危险因子的相相联络,以及客户与诈骗客户、黑名单客户的相关严密程度等等,然后更精确地判别危险凹凸。一同,常识图谱的运用也大幅进步了危险鉴别的功率。

可是,现在将常识图谱运用于实务中的消费金融组织较少,大部分仍处于研制阶段。这首要是因为常识图谱在消费金融范畴的运用存在较大的难度,首要会集在常识获取和建模方面。

1. 常识获取

在常识获取中,大多数数据都对错结构化的,比方文本信息。这些非结构化数据无法直接用于建模,所以怎么把非结构化数据转化为结构化数据,再进一步整理成常识图谱所需的三元组结构是一个难点。在这个进程中,常识获取需求处理的一个中心问题是共指消解,也称为实体同义,一般要结合自然言语处理的“消歧剖析”技能一同处理。比方在同一家公司作业的职工,在填写单位称号时或许对其有不同的表述方法——“阿里巴巴网络技能有限公司”,“阿里巴巴集团”和“阿里巴巴”。这种情况下,首要需求运用自然言语处理技能,把这些不同的称号指代到同一实体上。然后运用常识图谱,描绘职工之间的相相联络。

2. 建模

首要是因为样本数量较少,构建有用模型的难度较大。在消费金融实务中,关于常识图谱的运用首要是笔直范畴,且约束场景。但受范畴和场景约束,样本数量也会受约束。此外,从不同来历大数据中抽取的常识或许存在很多的噪声和冗余,或许运用了不同的言语,然后无法树立相应的联络样本。可是跟着时刻的推移,样本的数量也会不断累积,逐步构成了一些特定的联络链接和子范畴。在这种情况下,构建迭代体系就显得尤为重要——经过将新的常识实时反馈给模型,然后使得模型不断地自优化。

其次,将同一套模型运用到不同消费金融组织的难度较大。这是因为建模进程需求结合详细的组织数据去做数据清洗。数据不同,则模型也会存在差异,所以很难树立起一套标准化模型。正是因为这个原因,现在国内为消费金融业务供给常识图谱技能支持的第三方渠道数量并不多。据麻袋研究院了解,做常识图谱技能输出的方法首要是验证重要变量特征,将重要变量模型输出,然后为消费金融组织节省了发掘部分数据特征的时刻和本钱。

注:特别感谢中腾信大数据负责人石正柏和机器学习工程师封吉宁为文章供给的辅导和主张。

免责声明:转载内容仅供读者参阅。如您以为本大众号的内容对您的常识产权造成了侵权,请当即奉告,咱们将在榜首时刻核实并处理。

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。

推荐阅读