摘要:命名實(shí)體識別(Named Entity Recognition, NER)作為自然語言處理的基本任務(wù)之一,一直以來都 是國內(nèi)外研究的熱點(diǎn).隨著金融互聯(lián)網(wǎng)的快速發(fā)展,迄今為止,金融領(lǐng)域中文NER不斷進(jìn)步,并得以應(yīng)用 到其他金融業(yè)務(wù)中.為了方便研究者了解金融領(lǐng)域中文NER方法的發(fā)展?fàn)顩r和未來發(fā)展趨勢,進(jìn)行了一 項(xiàng)相關(guān)方法的研究和總結(jié).首先,介紹了 NER的相關(guān)概念和金融領(lǐng)域中文NER的特點(diǎn);然后,按照金融領(lǐng) 域中文NER的發(fā)展歷程,將研究方法分為基于字典和規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度 學(xué)習(xí)的方法,并詳細(xì)介紹了每類方法的特點(diǎn)和典型模型;接下來,簡要概括了金融領(lǐng)域中文NER的公開數(shù) 據(jù)集和工具、評估方法及其應(yīng)用;最后,向讀者闡述了目前面臨的挑戰(zhàn)和未來的發(fā)展趨勢.
關(guān)鍵詞:自然語言處理;中文命名實(shí)體識別;金融領(lǐng)域
引 言
在日常生活中,隨著科技的進(jìn)步和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁新聞、研報(bào)、論壇、公眾號、微博等信 息不斷實(shí)時(shí)更新,使得網(wǎng)絡(luò)信息量呈爆炸式增長,海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)為自 然語言處理任務(wù)提供了數(shù)據(jù)來源,并促進(jìn)自然語言處理技術(shù)的快速發(fā)展.面對結(jié)構(gòu)各異、信息冗雜的
文本數(shù)據(jù),如何提取出關(guān)鍵性的有價(jià)值信息,是一項(xiàng)有意義的科研工作,信息抽取技術(shù)便應(yīng)運(yùn)而生.命 名實(shí)體識別作為信息抽取的子任務(wù)之一,是指從文本中識別出實(shí)體及其類別,這些實(shí)體類型包括人 名、地名、機(jī)構(gòu)名、專有名詞和時(shí)間等.同時(shí),作為自然語言處理中的關(guān)鍵技術(shù)之一,命名實(shí)體識別為 其他自然語言處理任務(wù),諸如信息檢索、知識問答系統(tǒng)、文本摘要、知識圖譜、關(guān)系抽取等奠定了基 礎(chǔ),因此得到國內(nèi)外科研工作者的廣泛關(guān)注.
命名實(shí)體識別的研究可以追溯到1991年,Rau[1]最初開展的是從文本中識別并抽取企業(yè)名稱的工 作,隨后有研究者將專有名詞也加入有待識別實(shí)體.美國NIST自動內(nèi)容抽取(Automatic Content Extraction, ACE)評測中根據(jù)實(shí)體在文本中的引用把它分為命名性指稱、名詞性指稱和代詞性指稱. “命名實(shí)體”(Named Entity, NE)這一術(shù)語是在MUC-6中提出的,是針對ACE中的“名詞性指稱”稱 呼,后來MUC-6組織了 NERC這項(xiàng)評測任務(wù),即命名實(shí)體識別和分類(Named Entity Recognition and Classification, NERC).人們將人名、地名和組織機(jī)構(gòu)名這3類實(shí)體進(jìn)一步細(xì)化,例如,將地名細(xì) 化為洲、國家、城市、州、自然景觀區(qū)域等.在計(jì)算自然語言學(xué)習(xí)會議(Conference on Computational Natural Language Learning,CoNLL)評測會議中擴(kuò)大了專有名詞的范圍,如書籍名、電影名、產(chǎn)品 名、醫(yī)藥名等[2]. NER發(fā)展至今,已經(jīng)衍生了許多解決該任務(wù)的方法,模型效果也在逐漸提升,研究語 言包括但不限于英語、中文、阿拉伯語、德語、法語等.NER的應(yīng)用已經(jīng)滲入商業(yè)、金融、電子病歷、 網(wǎng)絡(luò)安全、生物醫(yī)學(xué)、軍事、生態(tài)治理、農(nóng)業(yè)等多種垂直領(lǐng)域中.
自21世紀(jì)初期,我國金融科技行業(yè)逐漸由手工轉(zhuǎn)為互聯(lián)網(wǎng)金融信息化,人工智能技術(shù)與金融業(yè) 務(wù)不斷融合,許多學(xué)者投入通過命名實(shí)體識別將文本和金融業(yè)務(wù)中的實(shí)體信息關(guān)聯(lián)起來的科研工作 中,其科研成果為用戶提供了更優(yōu)質(zhì)的金融智能化服務(wù)[3].相比于通用領(lǐng)域中文NER,金融領(lǐng)域中文 NER除了人名、地名、機(jī)構(gòu)名的識別以外,還包含屬于專業(yè)領(lǐng)域的金融實(shí)體,如金融公司名、公司名 簡稱、金融產(chǎn)品名稱、金融項(xiàng)目名稱、金融專業(yè)名詞等.金融領(lǐng)域中文NER的新挑戰(zhàn)在于3點(diǎn).其一 是組織機(jī)構(gòu)名的識別:金融文本中的組織機(jī)構(gòu)名長度變化大,并且機(jī)構(gòu)名實(shí)體中經(jīng)常含有人名、地名 和未登錄詞,構(gòu)成嵌套實(shí)體問題;對于同一個(gè)機(jī)構(gòu)的表達(dá)方式多樣,從全稱中抽取個(gè)別字組成新的不 同簡稱,甚至有一些網(wǎng)絡(luò)昵稱,如騰訊的昵稱為“鵝廠”;金融領(lǐng)域的組織機(jī)構(gòu)名的命名規(guī)則變化多樣, 沒有統(tǒng)一的格式進(jìn)行約束.其二是金融術(shù)語的識別:金融術(shù)語是一種復(fù)雜類型實(shí)體并且存在較多的新 實(shí)體,常用的分詞工具難以較好地切分專業(yè)名詞的邊界;金融文本中經(jīng)常出現(xiàn)中文、英文和數(shù)字混合 組成的實(shí)體名;術(shù)語的口語化表述方式造成歧義識別;領(lǐng)域性含義的實(shí)體,如軌道、杠桿、板塊等.其 三是缺乏實(shí)體豐富且有質(zhì)量的金融領(lǐng)域數(shù)據(jù)集供實(shí)驗(yàn)研究.隨著互聯(lián)網(wǎng)日新月異的變化,金融實(shí)體的 數(shù)量也在不斷大量增長,并且金融實(shí)體在文本中內(nèi)容分散、數(shù)據(jù)稀疏、無結(jié)構(gòu)化等特點(diǎn),使得通用領(lǐng) 域的NER模型直接應(yīng)用在金融領(lǐng)域中文NER數(shù)據(jù)集上的效果不顯著,需要根據(jù)金融文本特征探索 新方法.
近年來,有不少文獻(xiàn)對NER的國內(nèi)外研究方法進(jìn)行了梳理.Li等詳細(xì)整理了針對英文語料的 NER方法,尤其是基于深度學(xué)習(xí)的模型;李嘉欣等問詳細(xì)整理了針對中文語料的NER方法;Nadeau 等[6]主要介紹了統(tǒng)計(jì)學(xué)習(xí)方法在NERC中的應(yīng)用.在金融領(lǐng)域中,中文命名實(shí)體識別作為金融文本的 其他自然語言處理任務(wù)的基石,用科學(xué)技術(shù)促使金融業(yè)務(wù)變得更加智能化.然而,針對中文命名實(shí)體 識別在金融領(lǐng)域中應(yīng)用的綜述幾乎沒有,這促使本文進(jìn)行一項(xiàng)有關(guān)金融領(lǐng)域中文命名實(shí)體方法的調(diào) 查,闡述相關(guān)技術(shù)的研究現(xiàn)狀,梳理并總結(jié)現(xiàn)有科學(xué)技術(shù)在金融領(lǐng)域中文NER中的效果,以發(fā)現(xiàn)金融 領(lǐng)域中文NER仍然存在的問題以及其他可探索的研究方法.
本文深入調(diào)查了中文命名實(shí)體識別在金融領(lǐng)域中的應(yīng)用.首先介紹NER的有關(guān)概念及其在金融 領(lǐng)域中的特點(diǎn),然后將金融領(lǐng)域中文NER方法分為3大類:基于規(guī)則和字典的方法、基于統(tǒng)計(jì)機(jī)器學(xué) 習(xí)的方法、基于深度學(xué)習(xí)的方法.基于深度學(xué)習(xí)的方法按照模型的訓(xùn)練模式分為單任務(wù)學(xué)習(xí)和多任務(wù) 聯(lián)合學(xué)習(xí),對金融領(lǐng)域中文NER公開數(shù)據(jù)集和工具進(jìn)行簡單介紹,之后詳細(xì)闡述有關(guān)的評估方法.此 外,本文還搜集了金融領(lǐng)域命名實(shí)體識別的應(yīng)用,最后介紹金融領(lǐng)域中文NER仍然面臨的挑戰(zhàn)和未 來的發(fā)展方向,并對本文做出總結(jié).
1概念
首先介紹NER的有關(guān)概念,包括NER的定義、NER的標(biāo)注方法、金融領(lǐng)域中文NER的特點(diǎn).
1.1 NER的定義
NER,即命名實(shí)體識別,是指從非結(jié)構(gòu)化的自然語言文本中識別出具有特定意義的實(shí)體并將這個(gè) 實(shí)體歸為預(yù)先設(shè)定好的類別中實(shí)體通常代表一個(gè)具體的事物,通用領(lǐng)域中的實(shí)體主要包括人名、地 名、機(jī)構(gòu)名、專有名詞、時(shí)間、日期和貨幣等.
NER的形式化定義是指給定一段文字序列(叫,奶,..+,叫),識別出1組元組1個(gè) 元組代表1個(gè)實(shí)體,其中叫表示1個(gè)輸入的字或詞,is表示實(shí)體的開始下標(biāo),ie表示實(shí)體的結(jié)束下標(biāo), 尤表示實(shí)體的類型[4].如圖1所示是1個(gè)NER任務(wù)示例,對給定的序列通過NER識別輸出4個(gè)實(shí)體, 分別是“一·季度”(Time)、“上海”(Location)、“北京"(Location)和“浙江"(Location).
通常把傳統(tǒng)的NER當(dāng)作序列標(biāo)注任務(wù)處理,即每個(gè)字都被打上一個(gè)對應(yīng)的標(biāo)簽.根據(jù)實(shí)體之間 的嵌套關(guān)系,衍生出嵌套NER任務(wù)'如“上海市人民政府”是一個(gè)機(jī)構(gòu)實(shí)體,但“上海市”是一個(gè)地名 實(shí)體.根據(jù)實(shí)體所屬的類別集合,又衍生出細(xì)粒度實(shí)體分類任務(wù)[9],實(shí)體所屬的類別之間具有層級關(guān) 系.例如,人名實(shí)體按照行業(yè)分為教育工作者、醫(yī)者、藝術(shù)家等,教育工作者按照職稱又分為教授、副 教授、研究員等.而本文不對后兩者做過多介紹,主要關(guān)注的是傳統(tǒng)的NER任務(wù).
1.2 NER的標(biāo)注方法
最常見的標(biāo)注方法有BIO、BIOES、BMES,方法中各個(gè)字符所代表的含義如表1所示.
1.3金融領(lǐng)域中文NER的特點(diǎn)
金融領(lǐng)域是一個(gè)具有高度專業(yè)性的領(lǐng)域,很多詞匯不能從字面意思理解,需要結(jié)合金融的背景和 語境去理解其背后的特殊含義,自然語言處理的所有子任務(wù)在金融領(lǐng)域中都有一個(gè)獨(dú)特的理解方式. 金融具有成本低、效率高、覆蓋面廣、風(fēng)險(xiǎn)高的特點(diǎn),命名實(shí)體識別作為自然語言處理最基礎(chǔ)的任務(wù) 之一,識別效果嚴(yán)重影響下游任務(wù)的效果,所以在金融領(lǐng)域中,命名實(shí)體識別結(jié)果是否準(zhǔn)確間接決定 著金融經(jīng)濟(jì)產(chǎn)業(yè)鏈的效益.相對于通用領(lǐng)域的中文NER,本文總結(jié)了金融領(lǐng)域中文NER的主要特點(diǎn) 并將其歸為3大類.
(1)文本數(shù)據(jù)量大,內(nèi)容復(fù)雜,更新快.金融經(jīng)濟(jì)發(fā)展迅速,互聯(lián)網(wǎng)金融的時(shí)代下,每日不斷更新大 量的實(shí)時(shí)新聞,文本內(nèi)容質(zhì)量參差不齊,不同來源的報(bào)道表述格式不一,而且里面還會出現(xiàn)大量冗余 信息,使得很難全部識別出其中的實(shí)體.
(2)異常的表達(dá)方式,專業(yè)名詞多.
a)金融是一個(gè)專業(yè)背景強(qiáng)的領(lǐng)域,金融領(lǐng)域的術(shù)語往往有著特殊的含義,即使是人工,有時(shí)候也 需要具有專業(yè)背景的人員才能理解,比如產(chǎn)品實(shí)體“對沖基金”“白騎士”等,分詞工具難以準(zhǔn)確分詞.
b)高頻存在不規(guī)則的實(shí)體縮寫,如“中國農(nóng)業(yè)銀行股份有限公司”是一個(gè)公司名,而“農(nóng)業(yè)銀行” “農(nóng)行”兩個(gè)簡稱也是一個(gè)公司名.
推薦閱讀:碳金融相關(guān)外文文獻(xiàn)研究及對雙碳目標(biāo)的建議
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >