摘要:命名實體識別(Named Entity Recognition, NER)作為自然語言處理的基本任務(wù)之一,一直以來都 是國內(nèi)外研究的熱點.隨著金融互聯(lián)網(wǎng)的快速發(fā)展,迄今為止,金融領(lǐng)域中文NER不斷進步,并得以應(yīng)用 到其他金融業(yè)務(wù)中.為了方便研究者了解金融領(lǐng)域中文NER方法的發(fā)展狀況和未來發(fā)展趨勢,進行了一 項相關(guān)方法的研究和總結(jié).首先,介紹了 NER的相關(guān)概念和金融領(lǐng)域中文NER的特點;然后,按照金融領(lǐng) 域中文NER的發(fā)展歷程,將研究方法分為基于字典和規(guī)則的方法、基于統(tǒng)計機器學習的方法和基于深度 學習的方法,并詳細介紹了每類方法的特點和典型模型;接下來,簡要概括了金融領(lǐng)域中文NER的公開數(shù) 據(jù)集和工具、評估方法及其應(yīng)用;最后,向讀者闡述了目前面臨的挑戰(zhàn)和未來的發(fā)展趨勢.
關(guān)鍵詞:自然語言處理;中文命名實體識別;金融領(lǐng)域
引 言
在日常生活中,隨著科技的進步和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁新聞、研報、論壇、公眾號、微博等信 息不斷實時更新,使得網(wǎng)絡(luò)信息量呈爆炸式增長,海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)為自 然語言處理任務(wù)提供了數(shù)據(jù)來源,并促進自然語言處理技術(shù)的快速發(fā)展.面對結(jié)構(gòu)各異、信息冗雜的
文本數(shù)據(jù),如何提取出關(guān)鍵性的有價值信息,是一項有意義的科研工作,信息抽取技術(shù)便應(yīng)運而生.命 名實體識別作為信息抽取的子任務(wù)之一,是指從文本中識別出實體及其類別,這些實體類型包括人 名、地名、機構(gòu)名、專有名詞和時間等.同時,作為自然語言處理中的關(guān)鍵技術(shù)之一,命名實體識別為 其他自然語言處理任務(wù),諸如信息檢索、知識問答系統(tǒng)、文本摘要、知識圖譜、關(guān)系抽取等奠定了基 礎(chǔ),因此得到國內(nèi)外科研工作者的廣泛關(guān)注.
命名實體識別的研究可以追溯到1991年,Rau[1]最初開展的是從文本中識別并抽取企業(yè)名稱的工 作,隨后有研究者將專有名詞也加入有待識別實體.美國NIST自動內(nèi)容抽取(Automatic Content Extraction, ACE)評測中根據(jù)實體在文本中的引用把它分為命名性指稱、名詞性指稱和代詞性指稱. “命名實體”(Named Entity, NE)這一術(shù)語是在MUC-6中提出的,是針對ACE中的“名詞性指稱”稱 呼,后來MUC-6組織了 NERC這項評測任務(wù),即命名實體識別和分類(Named Entity Recognition and Classification, NERC).人們將人名、地名和組織機構(gòu)名這3類實體進一步細化,例如,將地名細 化為洲、國家、城市、州、自然景觀區(qū)域等.在計算自然語言學習會議(Conference on Computational Natural Language Learning,CoNLL)評測會議中擴大了專有名詞的范圍,如書籍名、電影名、產(chǎn)品 名、醫(yī)藥名等[2]. NER發(fā)展至今,已經(jīng)衍生了許多解決該任務(wù)的方法,模型效果也在逐漸提升,研究語 言包括但不限于英語、中文、阿拉伯語、德語、法語等.NER的應(yīng)用已經(jīng)滲入商業(yè)、金融、電子病歷、 網(wǎng)絡(luò)安全、生物醫(yī)學、軍事、生態(tài)治理、農(nóng)業(yè)等多種垂直領(lǐng)域中.
自21世紀初期,我國金融科技行業(yè)逐漸由手工轉(zhuǎn)為互聯(lián)網(wǎng)金融信息化,人工智能技術(shù)與金融業(yè) 務(wù)不斷融合,許多學者投入通過命名實體識別將文本和金融業(yè)務(wù)中的實體信息關(guān)聯(lián)起來的科研工作 中,其科研成果為用戶提供了更優(yōu)質(zhì)的金融智能化服務(wù)[3].相比于通用領(lǐng)域中文NER,金融領(lǐng)域中文 NER除了人名、地名、機構(gòu)名的識別以外,還包含屬于專業(yè)領(lǐng)域的金融實體,如金融公司名、公司名 簡稱、金融產(chǎn)品名稱、金融項目名稱、金融專業(yè)名詞等.金融領(lǐng)域中文NER的新挑戰(zhàn)在于3點.其一 是組織機構(gòu)名的識別:金融文本中的組織機構(gòu)名長度變化大,并且機構(gòu)名實體中經(jīng)常含有人名、地名 和未登錄詞,構(gòu)成嵌套實體問題;對于同一個機構(gòu)的表達方式多樣,從全稱中抽取個別字組成新的不 同簡稱,甚至有一些網(wǎng)絡(luò)昵稱,如騰訊的昵稱為“鵝廠”;金融領(lǐng)域的組織機構(gòu)名的命名規(guī)則變化多樣, 沒有統(tǒng)一的格式進行約束.其二是金融術(shù)語的識別:金融術(shù)語是一種復(fù)雜類型實體并且存在較多的新 實體,常用的分詞工具難以較好地切分專業(yè)名詞的邊界;金融文本中經(jīng)常出現(xiàn)中文、英文和數(shù)字混合 組成的實體名;術(shù)語的口語化表述方式造成歧義識別;領(lǐng)域性含義的實體,如軌道、杠桿、板塊等.其 三是缺乏實體豐富且有質(zhì)量的金融領(lǐng)域數(shù)據(jù)集供實驗研究.隨著互聯(lián)網(wǎng)日新月異的變化,金融實體的 數(shù)量也在不斷大量增長,并且金融實體在文本中內(nèi)容分散、數(shù)據(jù)稀疏、無結(jié)構(gòu)化等特點,使得通用領(lǐng) 域的NER模型直接應(yīng)用在金融領(lǐng)域中文NER數(shù)據(jù)集上的效果不顯著,需要根據(jù)金融文本特征探索 新方法.
近年來,有不少文獻對NER的國內(nèi)外研究方法進行了梳理.Li等詳細整理了針對英文語料的 NER方法,尤其是基于深度學習的模型;李嘉欣等問詳細整理了針對中文語料的NER方法;Nadeau 等[6]主要介紹了統(tǒng)計學習方法在NERC中的應(yīng)用.在金融領(lǐng)域中,中文命名實體識別作為金融文本的 其他自然語言處理任務(wù)的基石,用科學技術(shù)促使金融業(yè)務(wù)變得更加智能化.然而,針對中文命名實體 識別在金融領(lǐng)域中應(yīng)用的綜述幾乎沒有,這促使本文進行一項有關(guān)金融領(lǐng)域中文命名實體方法的調(diào) 查,闡述相關(guān)技術(shù)的研究現(xiàn)狀,梳理并總結(jié)現(xiàn)有科學技術(shù)在金融領(lǐng)域中文NER中的效果,以發(fā)現(xiàn)金融 領(lǐng)域中文NER仍然存在的問題以及其他可探索的研究方法.
本文深入調(diào)查了中文命名實體識別在金融領(lǐng)域中的應(yīng)用.首先介紹NER的有關(guān)概念及其在金融 領(lǐng)域中的特點,然后將金融領(lǐng)域中文NER方法分為3大類:基于規(guī)則和字典的方法、基于統(tǒng)計機器學 習的方法、基于深度學習的方法.基于深度學習的方法按照模型的訓練模式分為單任務(wù)學習和多任務(wù) 聯(lián)合學習,對金融領(lǐng)域中文NER公開數(shù)據(jù)集和工具進行簡單介紹,之后詳細闡述有關(guān)的評估方法.此 外,本文還搜集了金融領(lǐng)域命名實體識別的應(yīng)用,最后介紹金融領(lǐng)域中文NER仍然面臨的挑戰(zhàn)和未 來的發(fā)展方向,并對本文做出總結(jié).
1概念
首先介紹NER的有關(guān)概念,包括NER的定義、NER的標注方法、金融領(lǐng)域中文NER的特點.
1.1 NER的定義
NER,即命名實體識別,是指從非結(jié)構(gòu)化的自然語言文本中識別出具有特定意義的實體并將這個 實體歸為預(yù)先設(shè)定好的類別中實體通常代表一個具體的事物,通用領(lǐng)域中的實體主要包括人名、地 名、機構(gòu)名、專有名詞、時間、日期和貨幣等.
NER的形式化定義是指給定一段文字序列(叫,奶,..+,叫),識別出1組元組1個 元組代表1個實體,其中叫表示1個輸入的字或詞,is表示實體的開始下標,ie表示實體的結(jié)束下標, 尤表示實體的類型[4].如圖1所示是1個NER任務(wù)示例,對給定的序列通過NER識別輸出4個實體, 分別是“一·季度”(Time)、“上海”(Location)、“北京"(Location)和“浙江"(Location).
通常把傳統(tǒng)的NER當作序列標注任務(wù)處理,即每個字都被打上一個對應(yīng)的標簽.根據(jù)實體之間 的嵌套關(guān)系,衍生出嵌套NER任務(wù)'如“上海市人民政府”是一個機構(gòu)實體,但“上海市”是一個地名 實體.根據(jù)實體所屬的類別集合,又衍生出細粒度實體分類任務(wù)[9],實體所屬的類別之間具有層級關(guān) 系.例如,人名實體按照行業(yè)分為教育工作者、醫(yī)者、藝術(shù)家等,教育工作者按照職稱又分為教授、副 教授、研究員等.而本文不對后兩者做過多介紹,主要關(guān)注的是傳統(tǒng)的NER任務(wù).
1.2 NER的標注方法
最常見的標注方法有BIO、BIOES、BMES,方法中各個字符所代表的含義如表1所示.
1.3金融領(lǐng)域中文NER的特點
金融領(lǐng)域是一個具有高度專業(yè)性的領(lǐng)域,很多詞匯不能從字面意思理解,需要結(jié)合金融的背景和 語境去理解其背后的特殊含義,自然語言處理的所有子任務(wù)在金融領(lǐng)域中都有一個獨特的理解方式. 金融具有成本低、效率高、覆蓋面廣、風險高的特點,命名實體識別作為自然語言處理最基礎(chǔ)的任務(wù) 之一,識別效果嚴重影響下游任務(wù)的效果,所以在金融領(lǐng)域中,命名實體識別結(jié)果是否準確間接決定 著金融經(jīng)濟產(chǎn)業(yè)鏈的效益.相對于通用領(lǐng)域的中文NER,本文總結(jié)了金融領(lǐng)域中文NER的主要特點 并將其歸為3大類.
(1)文本數(shù)據(jù)量大,內(nèi)容復(fù)雜,更新快.金融經(jīng)濟發(fā)展迅速,互聯(lián)網(wǎng)金融的時代下,每日不斷更新大 量的實時新聞,文本內(nèi)容質(zhì)量參差不齊,不同來源的報道表述格式不一,而且里面還會出現(xiàn)大量冗余 信息,使得很難全部識別出其中的實體.
(2)異常的表達方式,專業(yè)名詞多.
a)金融是一個專業(yè)背景強的領(lǐng)域,金融領(lǐng)域的術(shù)語往往有著特殊的含義,即使是人工,有時候也 需要具有專業(yè)背景的人員才能理解,比如產(chǎn)品實體“對沖基金”“白騎士”等,分詞工具難以準確分詞.
b)高頻存在不規(guī)則的實體縮寫,如“中國農(nóng)業(yè)銀行股份有限公司”是一個公司名,而“農(nóng)業(yè)銀行” “農(nóng)行”兩個簡稱也是一個公司名.
推薦閱讀:碳金融相關(guān)外文文獻研究及對雙碳目標的建議
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >