金融領域中的自然語言處理，弄懂這五個問題就夠了-妙盈研究院

金融領域中的自然語言處理，弄懂這五個問題就夠了

妙盈科技CTO劉濤將通過五個問題，為我們解釋自然語言處理（NLP）的基本概念與發展歷程，以及針對中文與英文NLP面臨的問題有哪些不同，金融領域中的NLP已經有了哪些應用？又存在哪些挑戰？

Liu Tao, 妙盈科技創始人兼CTO2019-05-14

計算機非常擅長使用結構化數據，因此針對大量的數據和表格的處理，它都信手拈來。但是對於人類來說，我們是以非結構化的文字等信息進行交流的。計算機並不擅長處理這些非結構化數據，因此如何讓計算機理解人類的語言，一直以來是一大難題。

什麼是自然語言處理？與其他領域相比，針對金融領域的自然語言處理有何不同？

NLP本身是人工智能中的一個重要的方向，簡單來說，處理自然語言的過程就是讓機器去理解人的文本或語言，其中如翻譯、語音識別、語義理解、智能問答，知識圖譜等都屬於NLP的范疇。

自計算機誕生伊始，人類就致力於讓機器來理解我們語言。隨著人工智能、計算機科學、信息工程、統計學、甚至語言學等學科知識的不斷進步，目前NLP已經擁有了大量的商業應用，如機器翻譯（Google翻譯、有道翻譯等）、知識圖譜（以Google為代表的搜索引擎）、智能問答（Apple的Siri、亞馬遜的Alexa以及各種智能機器人）等等。

但是，金融領域的NLP目前仍處於探索階段，金融本身是一個專業性很高的領域，很多詞匯在金融語境下會產生特殊含義，所有的子問題都會有一個獨特的理解方式，而且金融領域衡量處理結果的方式也與其他領域不同。比如針對輿情分析，金融領域要求對市場未來的走勢有一定的預見性。

妙盈科技AMI系統中對新聞輿情進行分類與評分處理

因此，金融領域的NLP需要准備特殊的訓練數據集，而目前NLP所有方法都是基於大量的數據集基礎上，數據集的缺乏也是目前NLP在金融領域所面臨的最大問題之一，這也是金融領域高度的專業性與深度導致的。

在妙盈科技，我們應用NLP專注於解決NER、關系提取以及知識圖譜的建立。利用已經關聯好的其他數據對數據集進行補充，也就是利用知識圖譜來彌補訓練集的不足。

MioTech AMI - 知識圖譜

自然語言處理的發展經歷了哪些階段？遇到了哪些挑戰？

NLP的發展進程與人工智能發展的腳步大體相同，都經歷了如下的發展階段：

20世紀50 - 80 年代：簡單的實現人類掌握的規則，基於人類的經驗；
20世紀90年代 - 2000年左右：主要基於統計學的原理與方法；
2000年之後至今，由於數據的大幅增強、計算力的大幅提升，人們也逐漸開始將如日中天的深度學習方法引入到NLP領域中，在機器翻譯、問答系統、自動摘要等方向取得了重大突破。

但同時也應當注意到，NLP目前也仍然面臨諸多的挑戰。人類的語言非常簡練，在很多對話中是省略背景知識的。人類自己是可以很容易地理解這種省略的背景知識，但在NLP的過程中卻可能是很大的挑戰。

比如「司機，我在前門下車」這句話，當機器不了解具體語境的時候，就難以分清究竟在公交車前門，還是在北京前門站下車。

面向中文與英文的NLP存在哪些不同？中文NLP，特別是在金融領域存在哪些難點，有沒有某種算法是最佳的？

從語言本身上來看，英文比中文更直接，利用名詞就可以很大程度上判斷出一句話的語義。作為表音文字，英文還可以通過語法、時態、詞性、詞根、詞綴、單復數等形式來讓機器判斷真實意圖。

中文是象形文字，沒有各種詞性的轉換，也無法對某個單字進行拆分，因此機器一定要通過上下文語境來判斷具體語義。由於中文的特殊性，同一個任務、同一個模型在英文語境的表現一般要比中文好。

中文分詞是中文NLP的難點之一。如「結婚的和尚未結婚的」，應該分詞為「結婚/的/和/尚未/結婚/的」，還是「結婚/的/和尚/未/結婚/的」，不同的分詞方法會產生一定的歧義。再比如，「美國會通過對台售武法案」，我們既可以切分為「美國/會/通過對台售武法案」，又可以切分成「美/國會/通過對台售武法案」。

隨著深度學習的普遍使用，中文與英文在語言上的差異也逐漸變成訓練數據量上的差異，以往在NLP領域，可供使用的中文數據量比英文數據要少的多，這是目前中文NLP的難點之一。但是隨著有越來越多的人投入到中文人工智能以及NLP領域的研究中來，中文數據集不足的問題正在逐年改善。

在金融領域，針對基礎性問題，中英文所處的階段其實大體相同，但是針對如情感分析、市場預測等復雜問題，由於要結合具體的語境以及相應的應用場景，同時要考慮訓練的數量級問題，無論是中文還是英文的NLP要走的路都還有很多。

一個強大的NLP系統能夠幫助金融機構解決哪些實際問題？

全網輿情監控、產業鏈分析、讓機器幫助金融機構閱讀大量新聞。

例如，商業銀行希望使用更全面的數據進行企業的信貸風險管理，提前感知企業的潛在風險。目前常規的風險評估方法是根據企業公布的年報，並綜合信貸員實地調查的結果進行判斷，但是由於企業自身風險報出通常具有滯後性，公開信息覆蓋度不高，看到的往往只是冰山一角，因此判斷風險的手段十分單一。這也是NLP與人工智能可以發揮作用的地方。

NLP可以對信息進行多維關系的挖掘，評估企業之間的關系，並通過知識圖譜直觀呈現企業之間的關聯，提前設立預警信號，一旦企業關系網內的相關對象出現任意變動，便可根據關系權重，快速地評估對整個關系網的影響程度。

知識圖譜在企業信用風險預測中的作用

根據上市公司公開財報進行產業鏈挖掘是我們對NLP的又一應用。產業鏈數據以所有A股上市公司財報為原始數據源，根據公開財報中的主營業務構成，提取關鍵詞後輸入至預訓練的神經網絡中，對其進行向量表達。接下來，我們對輸入向量進行基於密度的聚類計算，輸出不同密度的集群，並最終進行集群命名。

產業鏈數據提取原理——基於密度的聚類算法

MioTech AMI 產業鏈數據展示

未來，中文NLP將會有哪些突破？

隨著每天產生的數據越來越多，可供機器進行訓練的數據集也會不斷增多。同時，隨著深度學習的發展，算法的不斷進步，將不斷降低對人類以往經驗的依賴度，就像Alpha Go，擺脫人類經驗後，它會表現更加出色。

特別是在BERT模型出現後，刷新了很多傳統NLP問題的准確程度，甚至在機器閱讀理解上，有些模型的准確程度已經全面超越人類。以機器閱讀理解為例，今年，人工智能在斯坦福大學閱讀理解測試(SQuAD)中擊敗了人類。根據SQuAD網站上的排行榜顯示，截至3月20日，使用的是BERT算法模型的EM得分(精確匹配，提供准確的問題答案)為87.147，排在首位，得分高於人類的86.831分。

從中文角度，NLP將向著深度學習的方向繼續發展，隨著數據集越來越豐富，針對復雜語義上的關系抽取將會更准確、針對情感識別也將逐漸進步。妙盈科技，作為這一賽道中面向金融領域的人工智能公司，隨著NLP算法的發展，我們的核心技術即實體識別與關系提取將會更加准確，提供的應用也將愈發成熟。