如何將數學應用到金融領域的自然語言處理中? - 專訪Prattle公司CEO Evan Schnidman

本篇文章中,妙盈市場洞見采訪了Prattle公司CEO,Evan Schnidman。Prattle是一家來自美國創業公司,Evan主要談到了自然語言處理等其他技術在美國金融行業的應用。

Evan Schnidman, Prattle首席執行官2019-02-22

Prattle是什麼?

Prattle是一家自動化研究公司,專注於分析復雜的市場動態語言。Prattle最初是建立於我的學術研究基礎上。我的學術生涯始於金融危機期間,當時作為一名博弈論家,我專門為小群體的決策建立模型。世界上最有趣的小群體決策者就是美聯儲。因此,我開始為美聯的決策如何影響金融市場進行建模。不過最終,我遇到了一個相當具有挑戰性的問題。首先,根據定義,金融市場的反應是特殊的。實際上,金融市場的反映並沒有系統性的模型,這很大程度上是由於市場反應是基於語言和語言線索的。因此,我著手開發了一種方法,提供一種更全面、更公正的方式來分析所謂的美聯儲言論。我深入研究了情緒分析的文獻,發現當時的文獻還不夠先進,不足以分析復雜微妙的語言。我開始與我的商業伙伴Bill MacMillan合作,目的是開發一種方法,能夠對最微妙、最能影響市場的語言提供全面、公正、定量的分析。從那以後,我們不僅將其應用於中央銀行信息,還應用於企業之間的信息分析,我們的技術每天可以處理大約500萬份文件。

Prattle主要應用哪種數據集?

我們只查看重要的源內容,特別是公開可用的內容。我們處理了目前公司領域會涉及到的方方面面,比如財報電話會議、監管文件、公司高管的講話、投資者日、新聞稿以及公司網站上的所有信息。這些信息都是公開的,因為我們的目標是確定什麼語言影響了市場,以及市場是如何回應每一次信息的傳播。

最開始我們只能分析一篇論文,而目前它已經成為分析復雜語言的更廣泛的工具。在方法論上,真正的創新是我們正在用數學模型來描述語言中的模式。我們繪制每個單詞、短語、句子和段落之間的相互關系,以及這些語言與市場反應之間的關系。我們不是識別一些可能是積極的或消極的流行語,而是在篩選語言集群中的數據,就像人類大腦在閱讀、書寫或思考語言時處理語言的方式一樣。我們不考慮單個的單詞或短語,而傾向於用字符串和語言集群來思考,所以我們建立了這樣一個系統。

事實上,在Prattle,我們為美國的每一家上市公司建立並維護了一個獨特的詞匯庫。每一家公司都有自己特定的產品和服務,以及自己的一套個性和制度語言。人類分析時知道這一點,並能在檢查公司信息時加以說明,而我們的系統也是如此。

當你剛開始做技術的時候,金融領域是什麼情景?

Prattle成立於在2014年末,主營研究業務,我們還銷售基於央行分析的定量信號。當我想到這一點時,這就是當時市場所需要的,而它逐漸過渡到適應我們今天所擁有的工具。在與潛在客戶交談後,我們發現,他們真正遇到的困難是大量的公司信息以及央行信息。他們根本跟不上旺季的財報電話會議。我們最終決定分拆研究業務,並籌集資金,以一家技術公司進行規模化經營。2017年的大部分時間我們建立基礎設施,分析來自美國每一家上市公司的所有主要企業溝通渠道。

對Bill和我來說,最大的挑戰之一是當我們第一次開始創業的時候,根本沒有意識到我們在2014年已經走在了市場前面。當時有情緒分析功能,但並不理想。我們知道我們的系統十分復雜,但我不認為我們意識到了我們在NLP引擎和更廣泛的數據分析方面有多領先。從學術角度來說,我曾假設世界上頂尖的量化/對沖基金已經處於技術前沿,但事實證明,它們仍有一條相當陡峭的學習曲線,雖然它們很早就奠定了基礎。對我們來說,作為新進入者,從零開始,我們能夠更快地行動,在技術上遠遠領先於市場。

建立Prattle時,面臨了哪些挑戰?

對我們來說最大的挑戰是,任何之前看過情緒分析工具的人,都會立刻質疑我們所做的事情。絕大多數的情緒分析都很糟糕,我們不得不在每次會議上重新解釋,是如何在技術上重新發明「輪子」。所以這說是一個巨大的挑戰,我們必須向人們解釋所做的事情在方法論上是不同的。最重要的是,很多人都會說,例如作為一個交易員,我可能是錯的,作為一個自動化系統,你就可能是對的,但你是正確的原因卻是錯誤的。但是如果我們的系統一直是正確的,而那個人一直是錯誤的,他們就會錯過在他們選擇的行業中賺錢的機會。最終,誰對誰錯的概念變得難以描述,這就是人們開始傾聽的時候。

我發現懷疑並不一定意味著他們不參加會議。我們花了很多時間與那些對真正訂閱不感興趣的潛在客戶交談。大部分的時間是在教育這個市場,讓人們接受這個想法,證明它是可信的。不僅如此,它的工作原理是合理的,方法也是合理的,當然,我們提供的數據和自動化研究工具的輸出,都是有用的,可以作為一個信號進行交易。我覺得對沖基金行業已經在很大程度上渡過了難關,現在正在使用許多這樣的工具。我認為,未來幾年,許多資產管理公司和銀行將開始效仿。

你認為目前市場上什麼是最低效的?

我們意識到,人們消費信息的方式極其低效。有太多的信息需要依靠搜索引擎和其他傳統的信息聚合方式。最重要的是,如果你看看傳統的股票分析方法,20年前,一個分析師可能會分析10-12只股票。現在可能只有20支股票,而且它的上漲在很大程度上是由於歐洲金融監管機構迫使所有公司進行」硬美元」(Hard Dollars)研究。結果,人們不再像過去那樣做深度分析;他們沒有深入研究每一次財報電話會議,沒有閱讀每一份財報,也沒有了解公司的財務狀況。分析師們總是過度勞累。

隨著分析師所涵蓋的股票數量持續上升,從歷史上看,這種工作方式是不可持續的。他們不能用同樣的舊方法做更好的研究。我們看到了為這個痛點提供解決方案的機會:提供不必每次參加財報電話會議、不必閱讀每一份財務報表的能力。你得到一個自動化的研究報告,告訴你的電話,說,百分之多少的時間,每個說話人的情緒,最突出的言論(最有可能的兩個句子移動股價或最有可能出現傳統分析報告)。為了讓它直接發送到你的收件箱,或者作為手機上的一個提醒,真正地簡化你的工作流程,我們看到這是一個真正有效的工具。除此之外,它讓你退後一步,想一想你是如何做決定的,你是如何分析的,你是全面的,你是公正的嗎?在進行投資研究時,減輕人類的認知偏差是必要的,但通過傳統的研究方法很難做到這一點。

可以舉一個具體的例子嗎?

我們最初在美聯儲信息研究方面的工作引起了很多人的興趣。這不僅僅是一種解釋報表的新方法,它還允許我們用數學的方式表達信息。美聯儲的觀察人士不再把信息解讀為模糊的鷹派或鴿派,他們可以看到,我們的系統給信息打分的標准偏差更鷹派或鴿派。在分析美聯儲的策略時,它提供了一定程度的准確性。在分析了數百篇演講、論文和采訪之後,我們能夠判斷美聯儲對未來利率走勢的看法。通過分析美聯儲1998年至2005年的信息數據集以及隨後的市場反應,我們能夠根據債券、貨幣和股票價格的反應,為鷹派或鴿派的某些措辭打分。

針對收益電話會議,我們已經做了大量的工作來分析圍繞風險、稅收甚至法律訴訟的語言。最有趣的例子來自彭博社(Bloomberg)在2018年9月展示的一項研究,在這項研究中,我們能夠識別美國電話中的性別代表。我們發現只有8%的語言歸因於女性。即使是控制角色,當男人處於相同的位置時,他們說話的時間也比女人長。這對公司治理有各種各樣的影響。

在過去的3年裡,我們一直在分析G10央行貨幣政策的信息傳播。利用數據,我們預測G10集團央行下一步政策動向的准確率已經達到了98%。同一天期貨定價在同一時期只有92%的准確率。這意味著,在預測央行下一步政策動向方面,我們比市場更為准確。因為我們可以做到全面和公正,這是人類一直在為之奮斗的兩件事。作為一個有相當多分析央行政策經驗的人類分析師,我可以告訴你,我個人並不總是同意我們打的所有電話,總的來說,我個人是錯的,我們的技術是對的。我們的技術使客戶能夠以全新的眼光看待事物。最終的結果是,我們綜合、公正的技術與人類專家的結合,可以帶來更好的分析。此外,使用自動化工具來簡化研究過程並提供對人類認知偏差的檢查,會導致更有效、更好的研究。

你認為NLP在未來幾年的發展趨勢是什麼? 

從歷史上看,NLP,尤其是情緒分析,一直是由識別流行語驅動的。這種對語言的誇張描述只起到了有限的作用,但它強調了教機器理解上下文,特別是命名實體識別(Entity Recognition, NER)的一個關鍵步驟。NER非常重要,因為它讓我們知道一篇文章是關於蘋果公司的,而不是蘋果的果實。神經網絡模型在改進NER和允許正確的屬性方面做了很多工作,而不僅僅是識別命名實體。隨著這項技術的推廣,人們將能夠更有效地進行更高階的語言建模。這種對語言模式的高級建模是Prattle多年來一直在做的事情,所以看到市場朝著我們的方向發展是件好事。

也就是說,恰當地建模語言是困難的,而且是數學密集型的。因此,對於NLP來說,更廣泛的數據科學工具包越來越重要。事實上,在Prattle中,我們已經構建了自己的後端數據科學平台,通過簡單地導航一系列下拉菜單,就可以從靜態模型過渡到完全部署的產品級代碼。這使我們能夠比以往任何時候都更有效地迭代模型開發和模型部署,從而允許我們不斷地改進我們的分析。我們認為,這些類型的數據科學工具將對所有數據和NLP密集型行業的未來發展至關重要。

您認為在美國技術的采用率在哪些方面可以提升?

以我的經驗,金融服務行業在技術普及率方面遇到了困難。該行業的大多數大公司目前在營銷自己的人工智能能力方面做得比實際使用基礎數據科學工具要好。我認為在未來3-5年內這種情況將會改變,我已經看到美國的主要對沖基金率先采用和實施人工智能架構。銀行和資產管理公司需要更長的時間來效仿,但它們最終會實現這一目標。

Prattle的發展方向是什麼?

我們已經對各國央行進行了全面的全球覆蓋。我們目前正尋求擴大我們的語言能力和全球股票分析,而不僅僅是在美國。除了上市公司,我們還在研究分析私營公司。你可以從ipo前的市場中獲得很多信息,尤其是今年優步(Uber)、Airbnb等公司正蓄勢待發。

我們還在擴大風險分析的范圍。因此,調整我們的NLP能力,以分析監管文件、法律程序、傳票、股東訴訟等。

或許最有趣的是,我們看到企業客戶的興趣日益濃厚,尤其是那些編寫財務披露語言的投資者關系團隊。他們特別感興趣的是,看看他們所寫的東西如何根據歷史數據在市場上公平交易。