金融領域中的自然語言處理,弄懂這五個問題就夠了

妙盈科技CTO劉濤將通過五個問題,為我們解釋自然語言處理(NLP)的基本概念與發展歷程,以及針對中文與英文NLP面臨的問題有哪些不同,金融領域中的NLP已經有了哪些應用?又存在哪些挑戰?

Liu Tao, 妙盈科技創始人兼CTO2019-05-14

計算機非常擅長使用結構化數據,因此針對大量的數據和表格的處理,它都信手拈來。但是對於人類來說,我們是以非結構化的文字等信息進行交流的。計算機並不擅長處理這些非結構化數據,因此如何讓計算機理解人類的語言,一直以來是一大難題。

什麼是自然語言處理?與其他領域相比,針對金融領域的自然語言處理有何不同?

NLP本身是人工智能中的一個重要的方向,簡單來說,處理自然語言的過程就是讓機器去理解人的文本或語言,其中如翻譯、語音識別、語義理解、智能問答,知識圖譜等都屬於NLP的范疇。

自計算機誕生伊始,人類就致力於讓機器來理解我們語言。隨著人工智能、計算機科學、信息工程、統計學、甚至語言學等學科知識的不斷進步,目前NLP已經擁有了大量的商業應用,如機器翻譯(Google翻譯、有道翻譯等)、知識圖譜(以Google為代表的搜索引擎)、智能問答(Apple的Siri、亞馬遜的Alexa以及各種智能機器人)等等。

但是,金融領域的NLP目前仍處於探索階段,金融本身是一個專業性很高的領域,很多詞匯在金融語境下會產生特殊含義,所有的子問題都會有一個獨特的理解方式,而且金融領域衡量處理結果的方式也與其他領域不同。比如針對輿情分析,金融領域要求對市場未來的走勢有一定的預見性。

妙盈科技AMI系統中對新聞輿情進行分類與評分處理

因此,金融領域的NLP需要准備特殊的訓練數據集,而目前NLP所有方法都是基於大量的數據集基礎上,數據集的缺乏也是目前NLP在金融領域所面臨的最大問題之一,這也是金融領域高度的專業性與深度導致的。

在妙盈科技,我們應用NLP專注於解決NER、關系提取以及知識圖譜的建立。利用已經關聯好的其他數據對數據集進行補充,也就是利用知識圖譜來彌補訓練集的不足。

MioTech AMI - 知識圖譜

自然語言處理的發展經歷了哪些階段?遇到了哪些挑戰?

NLP的發展進程與人工智能發展的腳步大體相同,都經歷了如下的發展階段:

  • 20世紀50 - 80 年代:簡單的實現人類掌握的規則,基於人類的經驗;

  • 20世紀90年代 - 2000年左右:主要基於統計學的原理與方法;

  • 2000年之後至今,由於數據的大幅增強、計算力的大幅提升,人們也逐漸開始將如日中天的深度學習方法引入到NLP領域中,在機器翻譯、問答系統、自動摘要等方向取得了重大突破。

但同時也應當注意到,NLP目前也仍然面臨諸多的挑戰。人類的語言非常簡練,在很多對話中是省略背景知識的。人類自己是可以很容易地理解這種省略的背景知識,但在NLP的過程中卻可能是很大的挑戰。

比如「司機,我在前門下車」這句話,當機器不了解具體語境的時候,就難以分清究竟在公交車前門,還是在北京前門站下車。

面向中文與英文的NLP存在哪些不同?中文NLP,特別是在金融領域存在哪些難點,有沒有某種算法是最佳的?

從語言本身上來看,英文比中文更直接,利用名詞就可以很大程度上判斷出一句話的語義。作為表音文字,英文還可以通過語法、時態、詞性、詞根、詞綴、單復數等形式來讓機器判斷真實意圖。

中文是象形文字,沒有各種詞性的轉換,也無法對某個單字進行拆分,因此機器一定要通過上下文語境來判斷具體語義。由於中文的特殊性,同一個任務、同一個模型在英文語境的表現一般要比中文好。

中文分詞是中文NLP的難點之一。如「結婚的和尚未結婚的」,應該分詞為「結婚/的/和/尚未/結婚/的」,還是「結婚/的/和尚/未/結婚/的」,不同的分詞方法會產生一定的歧義。再比如,「美國會通過對台售武法案」,我們既可以切分為「美國/會/通過對台售武法案」,又可以切分成「美/國會/通過對台售武法案」。

隨著深度學習的普遍使用,中文與英文在語言上的差異也逐漸變成訓練數據量上的差異,以往在NLP領域,可供使用的中文數據量比英文數據要少的多,這是目前中文NLP的難點之一。但是隨著有越來越多的人投入到中文人工智能以及NLP領域的研究中來,中文數據集不足的問題正在逐年改善。

在金融領域,針對基礎性問題,中英文所處的階段其實大體相同,但是針對如情感分析、市場預測等復雜問題,由於要結合具體的語境以及相應的應用場景,同時要考慮訓練的數量級問題,無論是中文還是英文的NLP要走的路都還有很多。

一個強大的NLP系統能夠幫助金融機構解決哪些實際問題?

全網輿情監控、產業鏈分析、讓機器幫助金融機構閱讀大量新聞。

例如,商業銀行希望使用更全面的數據進行企業的信貸風險管理,提前感知企業的潛在風險。目前常規的風險評估方法是根據企業公布的年報,並綜合信貸員實地調查的結果進行判斷,但是由於企業自身風險報出通常具有滯後性,公開信息覆蓋度不高,看到的往往只是冰山一角,因此判斷風險的手段十分單一。這也是NLP與人工智能可以發揮作用的地方。

NLP可以對信息進行多維關系的挖掘,評估企業之間的關系,並通過知識圖譜直觀呈現企業之間的關聯,提前設立預警信號,一旦企業關系網內的相關對象出現任意變動,便可根據關系權重,快速地評估對整個關系網的影響程度。

知識圖譜在企業信用風險預測中的作用

根據上市公司公開財報進行產業鏈挖掘是我們對NLP的又一應用。產業鏈數據以所有A股上市公司財報為原始數據源,根據公開財報中的主營業務構成,提取關鍵詞後輸入至預訓練的神經網絡中,對其進行向量表達。接下來,我們對輸入向量進行基於密度的聚類計算,輸出不同密度的集群,並最終進行集群命名。

產業鏈數據提取原理——基於密度的聚類算法

MioTech AMI 產業鏈數據展示

未來,中文NLP將會有哪些突破?

隨著每天產生的數據越來越多,可供機器進行訓練的數據集也會不斷增多。同時,隨著深度學習的發展,算法的不斷進步,將不斷降低對人類以往經驗的依賴度,就像Alpha Go,擺脫人類經驗後,它會表現更加出色。

特別是在BERT模型出現後,刷新了很多傳統NLP問題的准確程度,甚至在機器閱讀理解上,有些模型的准確程度已經全面超越人類。以機器閱讀理解為例,今年,人工智能在斯坦福大學閱讀理解測試(SQuAD)中擊敗了人類。根據SQuAD網站上的排行榜顯示,截至3月20日,使用的是BERT算法模型的EM得分(精確匹配,提供准確的問題答案)為87.147,排在首位,得分高於人類的86.831分。

從中文角度,NLP將向著深度學習的方向繼續發展,隨著數據集越來越豐富,針對復雜語義上的關系抽取將會更准確、針對情感識別也將逐漸進步。妙盈科技,作為這一賽道中面向金融領域的人工智能公司,隨著NLP算法的發展,我們的核心技術即實體識別與關系提取將會更加准確,提供的應用也將愈發成熟。