如何将数学应用到金融领域的自然语言处理中? - 专访Prattle公司CEO Evan Schnidman

本篇文章中,妙盈市场洞见采访了Prattle公司CEO,Evan Schnidman。Prattle是一家来自美国创业公司,Evan主要谈到了自然语言处理等其他技术在美国金融行业的应用。

Evan Schnidman, Prattle首席执行官2019-02-22

Prattle是什么?

Prattle是一家自动化研究公司,专注于分析复杂的市场动态语言。Prattle最初是建立于我的学术研究基础上。我的学术生涯始于金融危机期间,当时作为一名博弈论家,我专门为小群体的决策建立模型。世界上最有趣的小群体决策者就是美联储。因此,我开始为美联的决策如何影响金融市场进行建模。不过最终,我遇到了一个相当具有挑战性的问题。首先,根据定义,金融市场的反应是特殊的。实际上,金融市场的反映并没有系统性的模型,这很大程度上是由于市场反应是基于语言和语言线索的。因此,我着手开发了一种方法,提供一种更全面、更公正的方式来分析所谓的美联储言论。我深入研究了情绪分析的文献,发现当时的文献还不够先进,不足以分析复杂微妙的语言。我开始与我的商业伙伴Bill MacMillan合作,目的是开发一种方法,能够对最微妙、最能影响市场的语言提供全面、公正、定量的分析。从那以后,我们不仅将其应用于中央银行信息,还应用于企业之间的信息分析,我们的技术每天可以处理大约500万份文件。

Prattle主要应用哪种数据集?

我们只查看重要的源内容,特别是公开可用的内容。我们处理了目前公司领域会涉及到的方方面面,比如财报电话会议、监管文件、公司高管的讲话、投资者日、新闻稿以及公司网站上的所有信息。这些信息都是公开的,因为我们的目标是确定什么语言影响了市场,以及市场是如何回应每一次信息的传播。

最开始我们只能分析一篇论文,而目前它已经成为分析复杂语言的更广泛的工具。在方法论上,真正的创新是我们正在用数学模型来描述语言中的模式。我们绘制每个单词、短语、句子和段落之间的相互关系,以及这些语言与市场反应之间的关系。我们不是识别一些可能是积极的或消极的流行语,而是在筛选语言集群中的数据,就像人类大脑在阅读、书写或思考语言时处理语言的方式一样。我们不考虑单个的单词或短语,而倾向于用字符串和语言集群来思考,所以我们建立了这样一个系统。

事实上,在Prattle,我们为美国的每一家上市公司建立并维护了一个独特的词汇库。每一家公司都有自己特定的产品和服务,以及自己的一套个性和制度语言。人类分析时知道这一点,并能在检查公司信息时加以说明,而我们的系统也是如此。

当你刚开始做技术的时候,金融领域是什么情景?

Prattle成立于在2014年末,主营研究业务,我们还销售基于央行分析的定量信号。当我想到这一点时,这就是当时市场所需要的,而它逐渐过渡到适应我们今天所拥有的工具。在与潜在客户交谈后,我们发现,他们真正遇到的困难是大量的公司信息以及央行信息。他们根本跟不上旺季的财报电话会议。我们最终决定分拆研究业务,并筹集资金,以一家技术公司进行规模化经营。2017年的大部分时间我们建立基础设施,分析来自美国每一家上市公司的所有主要企业沟通渠道。

对Bill和我来说,最大的挑战之一是当我们第一次开始创业的时候,根本没有意识到我们在2014年已经走在了市场前面。当时有情绪分析功能,但并不理想。我们知道我们的系统十分复杂,但我不认为我们意识到了我们在NLP引擎和更广泛的数据分析方面有多领先。从学术角度来说,我曾假设世界上顶尖的量化/对冲基金已经处于技术前沿,但事实证明,它们仍有一条相当陡峭的学习曲线,虽然它们很早就奠定了基础。对我们来说,作为新进入者,从零开始,我们能够更快地行动,在技术上远远领先于市场。

建立Prattle时,面临了哪些挑战?

对我们来说最大的挑战是,任何之前看过情绪分析工具的人,都会立刻质疑我们所做的事情。绝大多数的情绪分析都很糟糕,我们不得不在每次会议上重新解释,是如何在技术上重新发明“轮子”。所以这说是一个巨大的挑战,我们必须向人们解释所做的事情在方法论上是不同的。最重要的是,很多人都会说,例如作为一个交易员,我可能是错的,作为一个自动化系统,你就可能是对的,但你是正确的原因却是错误的。但是如果我们的系统一直是正确的,而那个人一直是错误的,他们就会错过在他们选择的行业中赚钱的机会。最终,谁对谁错的概念变得难以描述,这就是人们开始倾听的时候。

我发现怀疑并不一定意味着他们不参加会议。我们花了很多时间与那些对真正订阅不感兴趣的潜在客户交谈。大部分的时间是在教育这个市场,让人们接受这个想法,证明它是可信的。不仅如此,它的工作原理是合理的,方法也是合理的,当然,我们提供的数据和自动化研究工具的输出,都是有用的,可以作为一个信号进行交易。我觉得对冲基金行业已经在很大程度上渡过了难关,现在正在使用许多这样的工具。我认为,未来几年,许多资产管理公司和银行将开始效仿。

你认为目前市场上什么是最低效的?

我们意识到,人们消费信息的方式极其低效。有太多的信息需要依靠搜索引擎和其他传统的信息聚合方式。最重要的是,如果你看看传统的股票分析方法,20年前,一个分析师可能会分析10-12只股票。现在可能只有20支股票,而且它的上涨在很大程度上是由于欧洲金融监管机构迫使所有公司进行”硬美元”(Hard Dollars)研究。结果,人们不再像过去那样做深度分析;他们没有深入研究每一次财报电话会议,没有阅读每一份财报,也没有了解公司的财务状况。分析师们总是过度劳累。

随着分析师所涵盖的股票数量持续上升,从历史上看,这种工作方式是不可持续的。他们不能用同样的旧方法做更好的研究。我们看到了为这个痛点提供解决方案的机会:提供不必每次参加财报电话会议、不必阅读每一份财务报表的能力。你得到一个自动化的研究报告,告诉你的电话,说,百分之多少的时间,每个说话人的情绪,最突出的言论(最有可能的两个句子移动股价或最有可能出现传统分析报告)。为了让它直接发送到你的收件箱,或者作为手机上的一个提醒,真正地简化你的工作流程,我们看到这是一个真正有效的工具。除此之外,它让你退后一步,想一想你是如何做决定的,你是如何分析的,你是全面的,你是公正的吗?在进行投资研究时,减轻人类的认知偏差是必要的,但通过传统的研究方法很难做到这一点。

可以举一个具体的例子吗?

我们最初在美联储信息研究方面的工作引起了很多人的兴趣。这不仅仅是一种解释报表的新方法,它还允许我们用数学的方式表达信息。美联储的观察人士不再把信息解读为模糊的鹰派或鸽派,他们可以看到,我们的系统给信息打分的标准偏差更鹰派或鸽派。在分析美联储的策略时,它提供了一定程度的准确性。在分析了数百篇演讲、论文和采访之后,我们能够判断美联储对未来利率走势的看法。通过分析美联储1998年至2005年的信息数据集以及随后的市场反应,我们能够根据债券、货币和股票价格的反应,为鹰派或鸽派的某些措辞打分。

针对收益电话会议,我们已经做了大量的工作来分析围绕风险、税收甚至法律诉讼的语言。最有趣的例子来自彭博社(Bloomberg)在2018年9月展示的一项研究,在这项研究中,我们能够识别美国电话中的性别代表。我们发现只有8%的语言归因于女性。即使是控制角色,当男人处于相同的位置时,他们说话的时间也比女人长。这对公司治理有各种各样的影响。

在过去的3年里,我们一直在分析G10央行货币政策的信息传播。利用数据,我们预测G10集团央行下一步政策动向的准确率已经达到了98%。同一天期货定价在同一时期只有92%的准确率。这意味着,在预测央行下一步政策动向方面,我们比市场更为准确。因为我们可以做到全面和公正,这是人类一直在为之奋斗的两件事。作为一个有相当多分析央行政策经验的人类分析师,我可以告诉你,我个人并不总是同意我们打的所有电话,总的来说,我个人是错的,我们的技术是对的。我们的技术使客户能够以全新的眼光看待事物。最终的结果是,我们综合、公正的技术与人类专家的结合,可以带来更好的分析。此外,使用自动化工具来简化研究过程并提供对人类认知偏差的检查,会导致更有效、更好的研究。

你认为NLP在未来几年的发展趋势是什么?

从历史上看,NLP,尤其是情绪分析,一直是由识别流行语驱动的。这种对语言的夸张描述只起到了有限的作用,但它强调了教机器理解上下文,特别是命名实体识别(Entity Recognition, NER)的一个关键步骤。NER非常重要,因为它让我们知道一篇文章是关于苹果公司的,而不是苹果的果实。神经网络模型在改进NER和允许正确的属性方面做了很多工作,而不仅仅是识别命名实体。随着这项技术的推广,人们将能够更有效地进行更高阶的语言建模。这种对语言模式的高级建模是Prattle多年来一直在做的事情,所以看到市场朝着我们的方向发展是件好事。

也就是说,恰当地建模语言是困难的,而且是数学密集型的。因此,对于NLP来说,更广泛的数据科学工具包越来越重要。事实上,在Prattle中,我们已经构建了自己的后端数据科学平台,通过简单地导航一系列下拉菜单,就可以从静态模型过渡到完全部署的产品级代码。这使我们能够比以往任何时候都更有效地迭代模型开发和模型部署,从而允许我们不断地改进我们的分析。我们认为,这些类型的数据科学工具将对所有数据和NLP密集型行业的未来发展至关重要。

您认为在美国技术的采用率在哪些方面可以提升?

以我的经验,金融服务行业在技术普及率方面遇到了困难。该行业的大多数大公司目前在营销自己的人工智能能力方面做得比实际使用基础数据科学工具要好。我认为在未来3-5年内这种情况将会改变,我已经看到美国的主要对冲基金率先采用和实施人工智能架构。银行和资产管理公司需要更长的时间来效仿,但它们最终会实现这一目标。

Prattle的发展方向是什么?

我们已经对各国央行进行了全面的全球覆盖。我们目前正寻求扩大我们的语言能力和全球股票分析,而不仅仅是在美国。除了上市公司,我们还在研究分析私营公司。你可以从ipo前的市场中获得很多信息,尤其是今年优步(Uber)、Airbnb等公司正蓄势待发。

我们还在扩大风险分析的范围。因此,调整我们的NLP能力,以分析监管文件、法律程序、传票、股东诉讼等。

或许最有趣的是,我们看到企业客户的兴趣日益浓厚,尤其是那些编写财务披露语言的投资者关系团队。他们特别感兴趣的是,看看他们所写的东西如何根据历史数据在市场上公平交易。