如何與大數據連接:專訪智能數據供應商Lucena Research

本篇文章中,我們采訪到了Lucena Research的創始人兼CEO Erez Katz,主要討論了該公司的技術優勢,以及如何填補數據與金融行業之間的數據鴻溝。

Erez Katz, Lucena Research創始人兼CEO2019-06-03

請簡單介紹一下Lucena Research

我是Erez Katz,Lucena Research的聯合創始人兼首席執行官之一,另一位聯合創始人塔克·巴爾奇是佐治亞理工學院的教授。 他擁有計算金融博士學位,並且是金融市場機器學習領域的專家。

自2013年成立以來,我們一直致力於將大數據和另類數據提供商與尋求從數據中提取可操作信息的投資專業人士聯系起來,以制定更好的投資決策和KPI預測。 我們公司創建了一個技術平台,Quantdesk。 該工具利用機器學習功能,目標是讓那些非定量和非數據科學家訪問它們。 那些希望使用智能數據的專業投資者只需點擊一下按鈕即可從我們平台提供的數據中獲取信息,而並不需要精通技術。 我們使用機器學習和大數據科學幫助增強決策過程。 這是我們的使命。

我們開發了一系列產品和服務,服務於年輕,新興的對沖基金和家族辦公室,以及最成功和最先進的對沖基金和金融機構。

您遇到的挑戰是什麼?

可靠性是我們面臨的最大挑戰。首先,在公司剛成立之時,機器學習和數據科學並不是媒體報道的焦點,也不並不在我們希望合作的一些大公司的考慮范圍。

其次,作為一家金融市場領域的新興公司,工作經驗,或成為該領域的專業投資者,都有很長的路要走。早期,我們公司主要由來自學術界和/或具有商業頭腦的技術專家組成,但不一定具有財務背景。這對我們來說是一個挑戰,因為金融領域很難將我們視為可靠的來源。

但這是堅持不懈和一致性長期存在的事情之一。這些只是時間問題。我們通過人際關系、並提供思想領導力來教育市場。經過一段時間後,我們不僅在機器學習領域成為專家,更重要的是了解到了如何在KPI預測和資產價格預測的背景下應用機器學習。

我們必須做的一件事是為我們的數據提供有效的經驗與證據。 在平台中,我們擁有一套全面的報告系統、回測系統以及永久紙上交易模擬系統,使我們的客戶能夠實時查看我們的預測決策並評估技術的功效。 從本質上講,我用戶能夠評估在我們進行預測後,對給定資產范圍的預測結果如何。 我們對有效和無效的透明度創造了額外的興趣,並建立了對我們的技術和成果所需的信任。

這是一場持久力游戲。 你需要足夠強大,活得足夠長,讓市場轉向你。 在過去兩年左右的時間裡,我們看到大數據和機器學習技術的采用發生了巨大變化。 這一切都處於起步階段,但市場正在向我們走來,這對我們來說是一個非常激動人心的時刻。

你還記得某個艱難的客戶洽談或者會議嗎?

有一天,我與一個非常大的消費者平台的專業投資者會面。我花了2個小時的飛機和住在酒店。當我終於遇見他時,他告訴我你有10分鐘。這是他說的第一件事。沒有打招呼,沒有與我握手。

與我們合作的人非常忙碌。這是一項非常緊張的工作。一個他們不太滿意的故事對他們來說是一個很大的挑戰,因為他們必須平衡他們的時間和好奇心。但現在情況有所不同。人們開始打電話給我們,要求時間進行討論,這對我們的業務更有利。

在你的創業歷程中,你是否記得某個艱難的電話?

我們必須每天做出艱難的決定。作為一個新興領域的新興公司,有些時候你不得對新業務說不,因為你認為這不會在改善你的計劃。當你是我們規模的公司時,我們沒有籌集到大量資金,我們每個收入都有機增長,收入意味著很多。過去,我們有機會與那些為我們的業務提供強大收入來源的人交往,但這是為一家銷售銀行服務的公司工作。我們決定說不,這對我們來說是一個非常艱難的決定,因為這是我們基本上放棄的收入。但我們當時知道這對我們來說不是正確的戰略舉措。事後看來,我們很高興我們做出了這個決定,因為我們對我們的核心競爭力保持真實和強大,而不是試圖成為每個人的一切。我認為,對於每個企業主來說,了解何時對提供即時現金流但不是長期業務視角的機會說不,這一點非常重要。

您如何與競爭對手區分開來?

其中一個區別是我們的透明度。坦率地說,這個領域有很多錯誤的信息。人們非常松散地使用術語如AI,機器學習,大數據而不知道它意味著什麼。

我們引以為豪的另一件事是我們的技術能力。我們不只是談論我們可以為他們做些什麼,我們實際上有一個強大的平台,用戶可以直接注冊並快速識別其所有功能。它非常容易使用,我相信這讓我們與眾不同。許多其他提供商傾向於依賴更昂貴的專業服務,結果可能不一定清楚。但與我們一起,我們得出了明確的結果。

更重要的是,我們非常以客戶為中心。我們傾聽客戶的需求,我們可以快速擴充我們的產品,專門支持他們所尋求的產品,而不是我們必須銷售的產品。這是我們公司的另一大優勢。

讓我給你舉個例子。我們的數據庫中有非常大的數據集。用戶很難解釋哪些數據集是可靠的,如果它是可靠的,我如何在我的特定需求的上下文中使用它。所以我們在我們的平台上構建了一個名為「數據匹配引擎」的模塊。它會引導您完成一系列篩選問題,它會要求您上傳您最感興趣的成分領域,有關您的投資風格,您的投資組合類型,投資時間范圍以及一系列其他問題。這通過「向導」進行。按下提交按鈕後,系統會退出並從我們的所有數據集中識別出所有因素,這些數據最適合您剛剛概述的特定方案。結果將展示最適合您特定需求的數據集,以及如何在以下上下文中使用這些數據集。我們還根據經驗向用戶展示了為什麼我們決定這些數據集更適合他們的參數。

您正在使用哪些數據集?

我們有很多合作伙伴。一些大型數據提供商如IBM,一家薪酬公司ADP,一家消費信貸公司,Equifax。但我們同時也擁有眾多小型數據提供商,這些提供商非常獨特,可以提供有關社交媒體情緒、企業盈利結果、內部買賣以及社交媒體消費者情緒指標的數據,這些數據可以確定人們在情感方面的情感參與度。我們的數據供應商名單還在繼續。

所有這些數據集放在一起,這為我們提供了一個非常好的機會創建多因子模型,這意味著一旦匯總了不同的信息,預測時我們的信心就會更高,在非常有效地識別八邊形數據集的背景下,我們的技術是獨一無二的。

Lucena的另類數據。資料來源:Lucena Research

考慮主要的數據來自與公司資產負債表和收益報告,你就可以將其與價格變動,均值回歸和動量情景等技術數據相結合。然後進一步將其與宏觀經濟數據相結合,這些數據都是我們基線數據集的一部分。現在,完成這些之後,你就可以添加各種獨特的另類數據公司了。

Lucena的數據驗證流程。資料來源:Lucena Research

從這裡開始,我們不會分析任何數據。我們有一個驗證過程,允許我們篩選哪些數據真正值得用戶考慮進一步研究。有些數據集要麼不夠成熟,缺乏歷史記錄,要麼數據不是「幸存者無偏見」,這基本上是如何考慮歷史上數據中不再存在的股票。我們通過多種方式測試數據,以確保數據真實,可靠和完整。這是一個需要解決的大問題,但是通過自動化流程簡化了許多這些流程。

誰是你的目標客戶?

在一個方面,我們有許多數據提供者作為客戶,但在買方,我會說有三種類型的客戶。第一種客戶層是定量基金。這些是最復雜的定量分析團隊,其工作是識別另類數據以及如何根據內部需求調動另類數據。這些公司不一定會從我們的定量研究能力中受益,因為他們有自己的定量研究能力,但卻消耗了我們的數據驗證服務。如果他們的隊列中有100個數據集,他們怎麼知道應該首先考慮哪個?他們想要快速失敗 ,並不想花3個月時間進行定量研究,才意識到他們所追求的是錯誤的數據集。我們通過驗證過程給予他們更高的成功。


Lucena的數據審查引擎。資料來源:Lucena Research

第二層是深度價值的基礎性基金,這些基金並非自然定量。但是他們試圖在水中浸泡腳趾。他們慢慢地小心翼翼地穿透到量化空間。我們稱它們為定量的,試圖通過引入量化措施來增加業務。這些客戶以更加復雜的方式使用我們進行KPI預測或智能數據饋。他們需要我們從原始數據中理解。因此,我們為它們解釋數據,並從數據中為它們提供更可操作的信號。

Lucena的模型投資組合。資料來源:Lucena Research

第三層是新興基金。代表是對沖基金,家族辦公室和其他投資專業人士,他們正試圖創建完全算法的投資組合。我們為他們提供模型組合,生成交易信號,交易模擬投資組合,幫助他們利用數據,科學和我們對完整算法交易策略的研究。

哪種產品最受歡迎?

我們的平台非常強大,其中QuatDesk(r)對「自己動手」的研究人員需求更多。然而,最近我們看到了KPI預測的巨大推動力。它不是預測資產的股票價格或市場的宏觀經濟趨勢,而是大公司的關鍵績效指標。這可以是任何東西,從總銷售額的變化到利潤率一直到每單位的回報。它也適用於機票價格預測,消費品總銷售和房地產預測或房屋定價

Lucena的KPI預測。資料來源:Lucena Research

我們預測KPI的能力比價格預測具有更高的准確度。原因在於資產價格,數據非常嘈雜。如果你的准確率達到55-58%,這個表現就相當不錯了。但是預測KPI時,就輕松獲得高達85-95%的准確度,這是更高程度的可靠性。最重要的是,我們的許多客戶都有自己的秘訣或做事方式。一旦他們收到構成其菜單基本要素的KPI,他們就可以自己去完成。這意味著如果他們獲得了基礎KPI或基本成分,實際上就可以自己預測實際投資組合,以做出最終決定。

假設有人想要確定美國或世界某些地區的房屋預計房地產價格是多少。一旦他們進入我們的平台,他們可以在過去幾年中按季度或按月上傳歷史房屋價格。因此,用戶會給我們一個時間序列,代表房屋價格隨著時間的推移。反過來,我們確定來自多個數據集的950個因子列表中哪些因素最適合他們上傳給我們的內容。然後,我們使用我們的系統(稱為「機器學習分類器」)來分類哪些因素共同產生了歷史KPI預測的最高概率,並使用這些因素來預測下一季度完成預測的原因。

Lucena的數據資格引擎。資料來源:Lucena Research

這個機會超越了金融市場,從而到達了更廣闊的市場。想想任何想要預測其未來KPI的公司。可能是零售公司根據屬於他們的替代數據預測銷售增長。例如,信用卡收據,商店中的消費者足跡,保質期和營業額庫存。所有這些數據集的聚合非常類似於我們如何聚合替代投資數據,但這樣,我們正在添加數據,以允許公司使用AI和機器學習技術做出更明智的未來決策。

目前,機器學習發展到了哪裡,它面臨的挑戰是什麼?

我們作為機器學習技術的領導者而自豪。我們涵蓋了廣泛的機器學習能力,從KNN,決策樹,邏輯回歸和SVM等傳統建模,到使用卷積神經網絡,長期和短期記憶的深度學習技術,帶有RNN的LSTM等。我們對資產擁有非常全面的專業知識,這是數據的一個功能。最復雜的機器學習功能,如計算機視覺,自動駕駛汽車或面部識別,所有這些關鍵技術都需要擁有豐富的樣本數據或標簽數據。這就是您如何訓練機器以概括可用於未來數據的功能,這些功能尚未被發掘。

機器學習同樣適用於KPI預測,如淨銷售的KPI。數據非常稀缺,每季度只需擁有一次數據點,但卻需要擁有數百萬個樣本數據,以便機器學習有效地學習如何交易股票。在許多情況下,不得不使用簡單的模型,因為數據不如其他部門那麼豐富。但即使樣本數據量增加,我們目前擁有的技術已經超越了機器學習和深度學習以及強化學習的時代。

對於另類數據來說,有一些數據以前不可用。如社交媒體在2013年底才開始廣泛使用,因此只擁有4到5年的數據。這還不足以創建深度學習功能,但在簡單的機器學習模型環境中,它們非常有效。

您如何看待亞洲數據?

我們非常羨慕中國人工智能市場,因為有一個非常廣泛的數據可用於機器學習研究。在美國和歐洲,數據隱私存在挑戰,這可能會從研究視角產生一些障礙。我知道在中國和一些亞洲國家,數據不像美國那樣具有限制性,這為中國機器學習和大數據市場提供了非常大的優勢。我們絕對認為中國是美國市場的強大競爭對手。但這項技術確實具有變革性。如果你考慮大數據和機器學習,它就像過去許多其他工業革命一樣大。我認為這是一個我們試圖解決的世界問題,以使世界變得更美好。我認為中國是一個非常強大的競爭者,但也是一個非常強大的合作者,試圖在研究,大數據和機器學習方面取得突破。

是否可以預見Lucena將成為主動基金經理接下來重點拓展的技術?

這是人們最經常問我的問題之一。大多數人會問是因為他們持懷疑態度。區分是非常重要的。我之前提到過准確度。當預測股票時擁有58%到60%的准確度,你不會一直都是正確的。除了獲得預測信號以運營成功的對沖基金或成功的資金管理之外,還有很多。

目前,我們的許多客戶都是對沖基金,如果我們要取得成功,我們就必須與特定投資工具建立合作伙伴關系,這些投資工具對我們有潛在價值。我們也以這些相同的理由與幾家公司合作。但最終,我們希望成為一家科技公司。我們希望開拓新的前沿,新的研究思路和新的能力,因為機器學習以及大數據正在快速發展,這是我們所鐘愛的事業。

其他人喜歡投資,使用投資工具,處理客戶和合規以及市場的起伏,但是我們決定遠離這個市場,而成為純技術手段,因為這是我們所擅長的。但是要回答你的問題,比喻說,我們正在吃自己的食物,因為我們正在吸引使用我們技術進行投資的公司。如果我們要成功地推動這些戰略,我們就會得到所謂的上升回報。所以間接地,我們正在使用自己的資金進行投資,雖然我們並不是推動買賣按鈕的實際人員。

未來Lucena會朝著什麼方向發展?

我們是一家正在經歷拐點的公司。 我們正在成長,我們必須決定如何利用市場給予我們的機會。

Lucena的伙伴關系戰略。 資料來源:Lucena Research

我們現在擁有一些機會。 第一是籌集資金,成為一家規模更大的公司。第二尋求一個共同努力快速擴張的戰略合作伙伴。 最後,是被一家大型公司收購,該公司希望讓我們提升他們戰略投資的能力。 我們正在評估這三個選項。 一個是有機增長。 一個是合並,另一個是獲得。 我們在所有這些方面都進行了積極的對話。同時,我們也很想找到一種方法,從而能夠進入亞洲市場。

Lucena Research 網站: https://lucenaresearch.com

Erez是Lucena Research的首席執行官兼聯合創始人。Erez幫助Lucena設計了旗艦平台QuantDesk®。在成立Lucena前,Erez是企業雲軟件公司Objectware Inc的創始人,該公司於2007年被Bridgeline Digital收購。Erez在2011年之前一直擔任Bridgeline的首席運營官,並對該公司的增長和最終在納斯達克上市起到了主要的推動作用。