Technology

专访妙盈科技数据架构总监:如何在金融领域构建知识图谱?

Alex Zhou 2019-03-11

知识图谱最初是由Google提出用来优化搜索引擎的技术。随着技术的发展,它的外延正在不断扩大,目前从聊天机器人、智能医疗到大数据风险管理、证券投资等等,无一不与知识图谱有关。知识图谱也被认为是人工智能目前最火热的赛道之一。

知识图谱是如何提高我们的搜索效率的?为什么称它为人工智能背后的最强大脑?如何将它应用于金融领域?在构建金融领域的知识图谱会遇到哪些问题?

我们邀请到了妙盈科技数据架构总监Alex,他向我们介绍了知识图谱的底层技术,并解释了知识图谱为何能应用于众多智能决策工具中,以及妙盈科技是如何构建金融领域的知识图谱。

什么是知识图谱?

简单来说,知识图谱就是把知识领域内所有实体和关系用图的形式,以网状结构表达出来的工具。常见的实体包括:公司、人物、地名、某一事件。常见的关系如:竞争关系、对外投资等等。

在知识图谱技术诞生前,搜索引擎主要应用的是“字符串搜索”技术,这项技术的局限是什么?

在知识图谱这项技术诞生前,搜索引擎只会利用用户输入的文本数据串与所有网页上的文本字符串进行匹配,从而找出相关的部分。

这种单纯匹配文本字符串的做法,好处是可以快速地找出的内容,但是局限也很明显。首先,这种仅仅匹配文本,而不理解用户真正意图的做法,用户一旦使用提问式的数据串,并不能找到问题的真正答案。其次,单纯的字符串匹配无法对信息进行进一步的延伸,这大大的降低了搜索效率。

为什么说知识图谱提高了搜索效率?它是如何具体帮助人工智能的?

知识图谱可以让万物互联,他也是人工智能背后的知识库,是真正的“最强大脑”。没有知识图谱的帮助,人工智能能够接受的信息量十分有限。二者是相互协作的关系。

妙盈科技的人工智能市场分析平台AMI广泛应用了知识图谱这项技术。比如用户想要了解苹果公司的股价,利用知识图谱技术,在AMI的图谱搜索中,用户可以一键查看苹果公司涉及到的所有信息,如财报、竞争对手、对外投资活动、最新新闻动态等所有信息,显著了用户提升的搜索效率。

知识图谱如何具体地帮助AI发现实体之间的隐藏关系?

可以举两个例子形象的说明这个问题。首先在反欺诈领域,通过知识图谱,我们可以从历史欺诈活动或数据汇总将特定模式进行可视化,以此来评估其他的多笔交易是否满足这个模式,一旦满足便触发欺诈预警提醒用户。

另一个例子在金融市场研究中很常见。一个在洛杉矶的公司发生的公司兼并事件可能会对来自伦敦的竞争对手、来自中国的供应商,甚至该供应商的竞争者都带来相当大的影响。在知识图谱的帮助下,我们就可以将这些原本这些孤立的事件当做一个整体进行考量。

妙盈科技所建立的知识图谱,与Google相比有什么不同?

从数据上来说,Google的知识图谱可以称之为“全知识图谱”,因为Google数据更全、数据覆盖面要更广。但是妙盈科技的知识图谱则专为金融行业定制,我们的数据库中所有数据都与金融相关,从金融数据的角度来说,我们比Google的数据覆盖面肯定更广。

在应用层面上,妙盈科技的知识图谱则更加深入,我们会针对金融行业不同的需要进行定制化处理,如股权穿透分析、同业分析的功能,这些都是Google的知识图谱无法达到的效果。

为金融机构建立知识图谱,什么是最关键的?

数据最关键。与Google进行比较可以更形象的说明。从数据上来看,Google对数据的第一要求是广而全,但是Google对数据来源的可靠程度要求不高。而金融行业对数据的准确性、可靠性、实时性往往都有更高的要求,因为这是跟投资决策进行直接挂钩的。

为金融机构建立知识图谱面临的主要挑战是什么?

数据来源的可靠性、实时性是目前我们面临的主要问题。

为了保证数据的可靠性,妙盈科技的数据团队专门设计了一套数据测试框架。常见的数据测试只对抽取的样本做可靠性测试,但是为了保证金融行业对数据高准确性的要求,我们放弃了样本测试,而进行了全数据扫描。这个方法的缺点是速度慢,但是我们正在通过分布式系统以及并行计算提高数据检测速度。

数据的实时性是我们目前面临的另一个挑战。目前知识图谱所使用的数据大多来自传统数据供应商,它们仍采用人工录入数据的方式。因此新发生的事件往往需要一段时间后才能反映在知识图谱中。妙盈科技正在研发一套新的AI模型解决这个问题,模型完成后,数据的录入将不再依靠人工,而是让机器判定主体、事件以及客体。让新进发生的事件实时反映在知识图谱中,从而让用户更早的发现隐藏的市场信号或投资机会。这套AI模型会将消息源、媒体数量以及相关语境都考虑进去,同时保证数据的实时性与准确度。

标签训练也是我们比较关注的一点,金融行业对标签标注的要求更高,对标注人员的学历以及金融背景都有一定的要求。

未来,妙盈科技的知识图谱将金融机构建立知识图谱面临的主要挑战是什么?

未来,妙盈科技的知识图谱将不再需要人工标注,凭借我刚刚提到的AI模型,实现全自动标注。

分享