日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

樹人論文網(wǎng)一個專業(yè)的學(xué)術(shù)咨詢網(wǎng)站?。?!
樹人論文網(wǎng)

應(yīng)急語言服務(wù)視角下的新冠肺炎醫(yī)學(xué)英語專題術(shù)語表開發(fā)

來源: 樹人論文網(wǎng)發(fā)表時間:2021-03-31
簡要:摘 要: 新型冠狀病毒肺炎在全球的迅速蔓延,讓我們深刻意識到突發(fā)公共衛(wèi)生危機(jī)中應(yīng)急醫(yī)療和社會治理之外,應(yīng)急知識和語言服務(wù)的重要性。以詞表開發(fā)和術(shù)語管理等形式提供的術(shù)語

  摘 要: 新型冠狀病毒肺炎在全球的迅速蔓延,讓我們深刻意識到突發(fā)公共衛(wèi)生危機(jī)中應(yīng)急醫(yī)療和社會治理之外,應(yīng)急知識和語言服務(wù)的重要性。以詞表開發(fā)和術(shù)語管理等形式提供的術(shù)語支援是應(yīng)急語言服務(wù)的一種重要方式和途徑,是保障精確溝通、順暢傳播的必要條件。文章從應(yīng)急語言服務(wù)視角出發(fā),利用 Sketch Engine 語料庫工具,從 COVID-19 語料庫中提取出 364 條新冠肺炎英語單詞術(shù)語和 176 條多詞術(shù)語,以期助力于新冠疫情的防控。從本次新冠肺炎專題詞表的開發(fā)實(shí)踐中,文章總結(jié)出以目的為導(dǎo)向的學(xué)術(shù)詞表制作流程,并提出學(xué)術(shù)詞表的后續(xù)研究方向,為應(yīng)急語言服務(wù)中的術(shù)語支援提供參考。

  關(guān)鍵詞: 應(yīng)急語言服務(wù); 新冠肺炎; 醫(yī)學(xué)英語; 術(shù)語表; 語料庫

應(yīng)急語言服務(wù)視角下的新冠肺炎醫(yī)學(xué)英語專題術(shù)語表開發(fā)

  本文源自李龍興; 王憲,中國科技術(shù)語 發(fā)表時間:2021-03-31《中國科技術(shù)語》雜志,于1985年經(jīng)國家新聞出版總署批準(zhǔn)正式創(chuàng)刊,CN:11-5554/N,本刊在國內(nèi)外有廣泛的覆蓋面,題材新穎,信息量大、時效性強(qiáng)的特點(diǎn),其中主要欄目有:探討與爭鳴、術(shù)語與翻譯、術(shù)語探源等。

  引言

  2019 年年底突發(fā)的新冠疫情讓我們深感突發(fā)公共衛(wèi)生事件中應(yīng)急服務(wù)的重要性??挂咂陂g,關(guān)于應(yīng)急語言服務(wù)的實(shí)踐和理論研究都大為增加,在教育部語信司的指導(dǎo)下,以國家語委科研機(jī)構(gòu)為骨干的語言學(xué)界及相關(guān)行業(yè)火速推出《抗擊疫情湖北方言通》和《疫情防控外語通》,為抗擊疫情的醫(yī)護(hù)人員及相關(guān)群體提供語言應(yīng)急服務(wù),該領(lǐng)域的研究內(nèi)涵也大為豐富。比如疫情防控中的醫(yī)患溝通、疾病命名、多語言信息發(fā)布、抗疫語言翻譯服務(wù)、新聞宣傳用語、謠言防控等[1]。王立非等梳理了應(yīng)急語言服務(wù)的概念、研究現(xiàn)狀與機(jī)制體制建設(shè)[2]; 滕延江從應(yīng)急語言服務(wù)視角出發(fā),明確了應(yīng)急語言服務(wù)的學(xué)科屬性,提出應(yīng)急語言服務(wù)研究的十大研究課題與三個研究范式[3]。

  以詞表開發(fā)和術(shù)語管理等形式提供的術(shù)語支援是應(yīng)急救災(zāi)管理中語言應(yīng)急的主要方式和途徑之一,清晰、一致的術(shù)語是快速溝通、順暢交流的必要條件,尤其是在生命受到威脅時更為關(guān)鍵[4]。陶源、趙浩在應(yīng)急語言能力視角下討論了新型冠狀病毒及新型冠狀病毒肺炎的術(shù)語命名問題[5]; 葉其松從術(shù)語學(xué)角度對新型冠狀病毒命名進(jìn)行了探索和思考[6]; 殷健以新冠術(shù)語為例,從國家文化安全視角探討了術(shù)語的命名、翻譯與傳播[7]; 曾江霞以新冠病毒相關(guān)術(shù)語翻譯為例,對多模態(tài)大數(shù)據(jù)語境下的科技術(shù)語翻譯標(biāo)準(zhǔn)進(jìn)行了分析[8]。目前,對新冠肺炎醫(yī)學(xué)術(shù)語詞表的制作和研發(fā)的探討相對較少,現(xiàn)有詞表還不夠完善,制作方法和流程不夠透明。因此本文在梳理借鑒以往學(xué)術(shù)詞表制作的經(jīng)驗(yàn)基礎(chǔ)上,從語言應(yīng)急角度出發(fā),基于 Sketch Engine 平臺 COVID -19 醫(yī)學(xué)語料庫探索專題術(shù)語表的制作及其在應(yīng)急醫(yī)療語言服務(wù)等方面的應(yīng)用,以期助力疫情防控。

  1 學(xué)術(shù)詞表

  1.1 詞表研究

  詞匯是理解的一個主要前提條件和影響因素[9],在語言學(xué)習(xí)和應(yīng)用中起著舉足輕重的作用,詞匯學(xué)習(xí)的廣度和深度還對寫作的準(zhǔn)確性和質(zhì)量有直接影響[10]。為了服務(wù)英語詞匯的教與學(xué),West 較早開 發(fā) 了 通 用 英 語 詞 表 ( General Service List, GSL) [11],列出了英語中常用的 2000 個詞族( word family) 。學(xué)術(shù)英語詞匯是詞匯學(xué)習(xí)的難點(diǎn)[12],在學(xué)術(shù)英語學(xué)習(xí)中占有重要地位,開發(fā)各類英語詞表也成為學(xué)術(shù)英語研究的重要任務(wù)和熱點(diǎn)問題[13]。Coxhead 基于 350 萬詞的人文、商業(yè)、法律、科學(xué)四個領(lǐng)域的學(xué)術(shù)文本語料庫開發(fā)出學(xué)術(shù)單詞表 ( Academic Word List,AWL) [14],共包含 570 個詞族。AWL 排除了通用英語詞表 GSL 中的詞匯,采用了詞族的方式,沒有對單詞詞形進(jìn)行還原( lemmatisation) ,也沒有進(jìn)行詞性標(biāo)注。AWL 詞表的出現(xiàn)激發(fā)了大量后續(xù)研究和諸多學(xué)科的學(xué)術(shù)英語詞表開發(fā),是當(dāng)代影響最為廣泛的學(xué)術(shù)英語詞表。Gardner 和 Davies 基于 120 多萬詞的當(dāng)代美國英語語料庫( COCA) ,采用全新方法開發(fā)了學(xué)術(shù)詞匯表( Academic Vocabulary List,AVL) [15],包含 3015 個學(xué)術(shù)英語單詞。AVL 未將通用英語詞表中的高頻詞排除在外,而是通過頻次比率( ratio) 的方法,要求收錄單詞在學(xué)術(shù)文本中的頻次是其在非學(xué)術(shù)文本中的 1.5 倍,以保證收錄的單詞是真正的高頻學(xué)術(shù)詞匯??紤]到有些高頻詞在通用英語與學(xué)術(shù)英語中的詞義可能完全不同,AVL 沒有采用詞族方法收錄詞匯,對所有單詞進(jìn)行了還原處理和詞性標(biāo)注。

  1.2 醫(yī)學(xué)詞表研究

  醫(yī)學(xué)詞匯的難度和重要性使得醫(yī)學(xué)英語詞表成了學(xué)術(shù)英語詞表研究的一個重要分支。Wang 等從 109 萬詞的醫(yī)學(xué)論文語料庫中提取開發(fā)了醫(yī)學(xué)英 語 學(xué) 術(shù) 詞 表 ( Medical Academic Word List, MAWL) [16],共收錄 623 個詞族。Lei 和 Liu 大致采用 AVL 的方法,利用 270 萬詞的醫(yī)學(xué)學(xué)術(shù)英語語料庫和 350 萬詞的醫(yī)學(xué)英語教科書語料庫開發(fā)了醫(yī)學(xué) 英 語 詞 匯 表 ( Medical Academic Vocabulary List,MAVL) [17]。與 MAWL 不同的是,MAVL 設(shè)置了最低頻次標(biāo)準(zhǔn)( minimum frequency) ,即收錄在 MAVL 的單詞頻次至少為 28.57 次每百萬詞( PMWs) ,以 確 保 收 錄 的 單 詞 為 高 頻 詞。MAVL 比 MAWL 更短,但覆蓋的醫(yī)學(xué)英語詞匯卻更廣。Lei 和 Liu 在編寫 MAVL 的研究啟示中提到,醫(yī)學(xué)這一大學(xué)科還有很多細(xì)分的領(lǐng)域,未來的研究可以考察醫(yī)學(xué)具體某個領(lǐng)域中的詞匯使用,并制作特定專業(yè)領(lǐng)域的醫(yī)學(xué)詞表[17]。如 Hsu 基于中醫(yī)英語教材語料庫開發(fā)了中醫(yī)英語學(xué)術(shù)詞表[18]。

  總體而言,當(dāng)前學(xué)術(shù)詞表的開發(fā)和研究還存在以下主要問題或爭議。第一,在詞匯收錄形式上存在爭議,包括對詞族、詞形還原和詞性標(biāo)注的選擇。多數(shù)學(xué)術(shù)詞表以詞族形式收錄,經(jīng)過歸納后的詞表看似規(guī)模較小,但實(shí)際單詞量并不少。比如 AWL 表面看只有 570 個詞族,實(shí)際上包含了 3100 多個不同詞形的單詞。并且同一個詞族的詞匯意義可能并不一致,詞性和同形( 音) 異義詞等情況也沒有考慮,這會導(dǎo)致學(xué)術(shù)詞表選詞不全或不準(zhǔn)確,從而降低詞表的信度和效度[19]。第二,在學(xué)術(shù)詞表與通用詞表的關(guān)系上,即學(xué)術(shù)詞表在排除還是保留通用詞匯高頻詞方面有較多爭議。通用高頻詞匯與學(xué)術(shù)詞匯會有交叉,難以將二者明確區(qū)分。一律排除通用詞匯表的詞匯會使一些具有特殊學(xué)術(shù)意義的詞匯不被收錄; 若保留又會使詞表稍顯冗長( 如 AVL 包含 3015 個學(xué)術(shù)英語單詞) ,或收入大量簡單的與通用英語重合的詞匯( 如 MAVL 收錄的 819 個醫(yī)學(xué)英語單詞中含有 313 個 GSL 中的通用英語詞匯,如 ability、age、 care、cause、change、high) ,從而使得學(xué)科專業(yè)性和針對性被削弱。第三,上述各類詞表的研究大多是對單詞詞表的研究,對多詞表達(dá)的研究較少,學(xué)術(shù)詞匯的多詞表達(dá)研究也較為缺乏。有少數(shù)學(xué)者進(jìn)行了學(xué)術(shù)英語多詞表達(dá)的研究,并呼吁未來進(jìn)行更多學(xué)術(shù)語言多詞表達(dá)的研究[20-22]。

  由于上述問題的存在,雖然已有上述多種學(xué)術(shù)英語詞表或醫(yī)學(xué)英語詞表可供選擇,但在 COVID19 應(yīng)急醫(yī)療服務(wù)中針對性不強(qiáng),使用效率不高。英語作為醫(yī)學(xué)國際交流和研究通用語,我們有必要快速開發(fā)出專業(yè)的、針對性強(qiáng)的 COVID-19 專題英語術(shù)語表,為世界各地抗疫一線的科研工作者和相關(guān)工作人員節(jié)約寶貴時間,助力疫情防控和新冠肺炎相關(guān)研究,以便在與新冠病毒的賽跑中挽救更多生命。語料庫工具 Sketch Engine 的關(guān)鍵詞功能在提取術(shù)語和多詞表達(dá)上作用強(qiáng)大,能同時解決上述三個問題。下文將探索新冠肺炎學(xué)術(shù)英語術(shù)語表 ( COVID-19 Word List) 制作的工具、語料來源、流程、應(yīng)用及啟示。

  2 語料庫工具 Sketch Engine 及 COVID-19 醫(yī)學(xué)語料庫

  2.1 語料庫工具 Sketch Engine

  詞匯速描系統(tǒng)是第四代語料庫檢索工具的代表[23-24],實(shí)現(xiàn)了語料庫在線檢索并提供以下核心功能: 詞匯速描( word sketch) ,詞匯差異速描( word sketch difference) ,類義詞( thesaurus) ,索引行( concordance) ,詞表( wordlist) ,關(guān)鍵詞( keywords) ,多詞表達(dá)( n-grams/multiword expressions,MWEs) 等( 圖 1) 。該系統(tǒng)已被廣泛用于詞典學(xué)、語言研究與教學(xué)、語篇分析、翻譯研究等領(lǐng)域[25],也是關(guān)鍵詞研究[26]和詞匯語義研究[27-28]的有力工具。下面將主要介紹在制作詞表或術(shù)語表中常用到的關(guān)鍵詞功能。

  過去的學(xué)術(shù)詞表制作通常先從學(xué)術(shù)語料庫中提取高頻詞,再對比通用詞表進(jìn)行篩選。Sketch Engine 的關(guān)鍵詞功能則是通過一次性比較兩個語料庫找出一個語料庫相對于另一個語料庫的獨(dú)特或典型的詞匯,通過這些詞可以了解該語料庫的內(nèi)容或主題,因此該功能尤其適用于尋找關(guān)鍵詞或提取術(shù)語。參照語料庫的選擇可以決定提取出的備選詞匯與專題的相關(guān)性。以制作 COVID-19 專題詞表為例,若以通用英語語料庫作為參照,則詞表可能會出現(xiàn)大量通用醫(yī)學(xué)常用語,與專題的直接相關(guān)性沒有以醫(yī)學(xué)英語語料庫作為參照得到的詞表強(qiáng)。而選擇 Sketch Engine 中的其他醫(yī)學(xué)語料庫做參照,能提高 COVID-19 醫(yī)學(xué)詞表的針對性和應(yīng)急性,減少詞表使用者可能已知的大量通用醫(yī)學(xué)詞匯。關(guān)鍵詞的術(shù)語提取功能對聚焦語料庫( focus corpus) 的規(guī)模要求不高,但規(guī)模越大的語料庫覆蓋的術(shù)語更多[29],參照語料庫( reference corpus) 的規(guī)模則是越大越好[30]。Sketch Engine 平臺的 COVID-19 語料庫和其他醫(yī)學(xué)語料庫的規(guī)模足以滿足本專題詞表制作的要求。

  關(guān)鍵詞功能的檢索結(jié)果分為 keywords 和 terms 兩部分。keywords 是在聚焦語料庫中出現(xiàn)頻率高于參照語料庫的單詞詞條( single word items) ,可根據(jù)需要選擇以詞元( lemma) 或單詞( word) 等形式顯示,并可區(qū)分大小寫; terms 是在聚焦語料庫中出現(xiàn)頻率高于參照語料庫的多詞詞條( N-grams/ MWEs) 。也就是說關(guān)鍵詞功能可根據(jù)研究者需要選擇詞匯的展示形式,并同時實(shí)現(xiàn)單詞術(shù)語和多詞術(shù)語的提取,解決詞表制作耗時低效、多詞術(shù)語制作難度高成果少的問題。由此可見,Sketch Engine 是一款非常適用于在緊急情況下提供應(yīng)急術(shù)語服務(wù)的語料庫工具。第 4 部分將詳細(xì)介紹 Sketch Engine 用于 COVID-19 學(xué)術(shù)英語單詞術(shù)語表和多詞術(shù)語表的制作。

  2.2 醫(yī)學(xué)語料庫

  1) 醫(yī)學(xué)語料庫建設(shè)應(yīng)用現(xiàn)狀

  雖然近年來各類語料庫的建設(shè)、應(yīng)用和研究如火如荼,但是醫(yī)學(xué)語料庫資源依然相對欠缺。國內(nèi)最近的醫(yī)學(xué)語料庫建設(shè)成果主要有馮欣等建立的 MedAca 醫(yī)學(xué)學(xué)術(shù)英語語料庫[31],作為學(xué)術(shù)英語語料庫( Database for English for Academic Purposes) 的醫(yī)學(xué)子庫,文本來自 2012 至 2017 年間在臨床醫(yī)學(xué)領(lǐng)域的國際學(xué)術(shù)期刊上發(fā)表的優(yōu)秀論文全文及其摘要,共計 5 041 631 個形符( tokens) ; 而李文和楊炳鈞建立的現(xiàn)代醫(yī)學(xué)英語書面語語料庫規(guī)模僅有約 200 萬詞,文本時間為 2000 年以后[32]。大部分醫(yī)學(xué)語料庫規(guī)模較小,缺乏統(tǒng)一的建設(shè)規(guī)范和標(biāo)準(zhǔn),部分語料庫語料來源較為陳舊,無法反映日新月異的醫(yī)學(xué)研究,難以體現(xiàn)醫(yī)學(xué)英語的全貌。

  2) COVID-19 醫(yī)學(xué)語料庫

  COVID-19 語料庫文本來自 COVID-19 開源研究數(shù)據(jù)庫( COVID-19 Open Research Dataset,CORD19) 。該數(shù)據(jù)庫旨在支持與新冠肺炎相關(guān)的研究工作,由經(jīng)同行評議的論文組成,并隨著新研究的發(fā)表而不斷更新,反映新冠肺炎防治的最新科學(xué)進(jìn)展。截至 2020 年 5 月 2 日,該數(shù)據(jù)庫收錄了大約 57 000 篇新冠肺炎相關(guān)的學(xué)術(shù)論文,是新冠肺炎研究寶貴的一手資料。該語料庫在 Sketch Engine 語料庫平臺上供開放使用,可訪問 http: / /ske.li /covid_19 進(jìn)行語料庫檢索及相關(guān)研究。該語料庫規(guī)模龐大,總詞數(shù)為 224 061 570,形符數(shù)為 280 762 172,按照論文的不同部分劃分為摘要庫、附件庫和正文庫三個子語料庫,其規(guī)模和構(gòu)成如表 1 所示。

  3) 參照語料庫: Open Access Journals-Medicine

  提取 COVID-19 語料庫中的關(guān)鍵詞需要一個參照語料庫。為了增強(qiáng)所提取備選術(shù)語的專業(yè)性和相關(guān)性,本文將在 Sketch Engine 平臺的 Open Access Journals( DOAJ) 語料庫下建立醫(yī)學(xué)子語料庫( DOAJMedicine) 作為參照。DOAJ 由各個領(lǐng)域的開源期刊論文構(gòu)成,涵蓋領(lǐng)域包括科學(xué)、技術(shù)、醫(yī)學(xué)、社會科學(xué)、人文科學(xué)等。該語料庫有規(guī)模大、時效性強(qiáng)、元信息豐富等特點(diǎn),總共 26 億詞,其中約 99%的文本發(fā)表年份在 2000 至 2017 年之間,保留了包括期刊名稱、國別、發(fā)表年份、出版社等豐富的元信息,便于根據(jù)不同需要創(chuàng)建子語料庫。DOAJ-Medicine 語料庫總形符數(shù) 175 136 014,約占整個語料庫的 5. 2%。 COVID-19 語料庫和 DOAJ-Medicine 語料庫均為上億詞級的語料庫,并且還在不斷擴(kuò)充,在醫(yī)學(xué)語料庫中規(guī)模位居世界前列。兩個語料庫語料時效性強(qiáng),可在同一平臺進(jìn)行檢索操作,具有很強(qiáng)的可比性和可參照性,是制作詞表的理想語料庫。

  3 COVID-19 術(shù)語表制作

  3.1 術(shù)語表制作的目的和原則

  如前文所述,我們制作術(shù)語表的目的是提供應(yīng)急語言服務(wù),特別是服務(wù)在抗疫前線的醫(yī)護(hù)人員、研究人員、醫(yī)學(xué)師生、外宣、媒體等相關(guān)人員,滿足其閱讀文獻(xiàn)資料、撰寫學(xué)術(shù)論文、教學(xué)研究或宣傳報道等需求。該詞表的大部分受眾是有一定專業(yè)醫(yī)學(xué)知識和醫(yī)學(xué)英語基礎(chǔ)或較高文化水平的專業(yè)人士。根據(jù)該目的,我們制定了入選術(shù)語表的兩個基本原則: 一為實(shí)現(xiàn)入選術(shù)語在相關(guān)文獻(xiàn)中有較高的覆蓋率,入選術(shù)語必須是 COVID-19 研究中的高頻詞; 二為提高詞表的專業(yè)度,減少詞條數(shù)量,減輕使用者負(fù)擔(dān),入選術(shù)語需在滿足高頻的前提下與主題有較強(qiáng)的相關(guān)性。

  3.2 語料庫檢索方案和詞條收錄標(biāo)準(zhǔn)

  在兩條原則的指導(dǎo)下,我們制定出具體的檢索方案,設(shè)定術(shù)語的收錄篩選標(biāo)準(zhǔn)。首先需要確定術(shù)語的來源語料庫。如前文提到 COVID-19 語料庫分為摘要庫、附件庫和正文庫三個子語料庫。摘要是對一篇論文精練的總結(jié)概括,與主題相關(guān)性最強(qiáng),涵蓋了一篇論文最核心的關(guān)鍵詞匯,選擇摘要庫作為聚焦語料庫可使檢索出的備選詞條更具相關(guān)性,減少人工篩選的工作量。摘要庫 6 946 594 個形符的規(guī)模也遠(yuǎn)遠(yuǎn)超過前文提及的大部分醫(yī)學(xué)語料庫全庫,可以保證相當(dāng)數(shù)量的術(shù)語產(chǎn)生。先后用 COVID-19 全庫、摘要庫和正文庫嘗試檢索后的結(jié)果也證實(shí)摘要庫提取的術(shù)語與主題相關(guān)性最強(qiáng)。結(jié)合 Sketch Engine 的功能特征,我們在關(guān)鍵詞功能中檢索備選術(shù)語時進(jìn)行了如圖 2 的設(shè)置。首先從 COVID-19 語料庫中選擇摘要子庫( only abstract) , “focus on”的設(shè)置保持系統(tǒng)默認(rèn)值 1( 該設(shè)置偏向 rare,即檢索的詞將聚焦在通用語言或參照語料庫中罕有或較少使用的詞匯,該設(shè)置更適用于術(shù)語提取) ,最小頻率設(shè)置為 10,隨后選擇“at least one alphanumeric”,即檢索的詞匯短語中至少含有一個字母或數(shù)字,例如 16-year-old,3D。兩個術(shù)語表的參照語料庫均為 DOAJ 醫(yī)學(xué)子語料庫,最大候選詞項(xiàng)數(shù)均設(shè)置為 2000,單詞術(shù)語以 lemma 形式顯示。

  通過檢索得出的兩個詞表中各有 2000 個備選詞條,將檢索結(jié)果保存為 Excel 表格。圖 3 展示出關(guān)鍵性值( keyness score) 位于前 10 位的備選單詞術(shù)語詞條。我們在對詞條進(jìn)行瀏覽觀察以后,根據(jù)相對頻率( relative frequency) 和關(guān)鍵性值兩個數(shù)值進(jìn)行一輪自動篩除,然后在第二輪進(jìn)行逐條閱讀人工篩除。就收錄術(shù)語的相對頻率最低值而言,單詞和多詞表達(dá)有所不同。Coxhead 在制作 AWL 時,限定入選詞匯須在其 350 萬詞的語料庫中出現(xiàn) 100次或以上( 即 28.57 PMWs) [14]。Lei 和 Liu 亦沿用了這一最低頻率標(biāo)準(zhǔn),收錄到 MAVL 的單詞頻率至少為 28.57 次每百萬詞[17]。對多詞表達(dá)而言,前人采用的最低出現(xiàn)頻率各不相同,從 10 到 40 次每百萬 詞 不 等[21]。 Biber、Johansson、Leech 等[33], Simpson-Vlach 和 Ellis [20] 使 用 10 次 每 百 萬 詞; Biber 和 Conrad [34],Hyland [35],Liu [21]選擇 20 次每百萬詞; Biber、Conrad 和 Cortes [36]則采用了 40 次每百萬詞的標(biāo)準(zhǔn)?;谏鲜鲅芯考皩溥x術(shù)語的觀察,本文采用的收錄術(shù)語最低頻率標(biāo)準(zhǔn)是: 單詞 28. 57 次每百萬詞以上,多詞表達(dá) 20 次每百萬詞以上。初步滿足這一標(biāo)準(zhǔn)的單詞術(shù)語有 586 條( 關(guān)鍵性值介于 3.61 ~ 523.09) ,多詞術(shù)語有 232 條( 關(guān)鍵性值介于 3.38~227.58) 。

  關(guān)鍵性值是 Sketch Engine 用于判斷某個詞條在聚焦語料庫相對于參照語料庫的特別性的一個數(shù)值,起到的作用相當(dāng)于 Gardner 和 Davies 開發(fā) AVL 時使用的收錄單詞標(biāo)準(zhǔn)中的頻次比率[15]。關(guān)鍵性值越高表明該詞在聚焦語料庫中越突出,因此更能反映聚焦語料庫的特征或者更有可能是術(shù)語。至于選擇哪一個關(guān)鍵性值作為入選術(shù)語的標(biāo)準(zhǔn),目前罕有研究或者沒有統(tǒng)一標(biāo)準(zhǔn)。結(jié)合本文術(shù)語表的目的,考慮到術(shù)語表應(yīng)有的適度規(guī)模,本文決定采用的標(biāo)準(zhǔn)為: 單詞術(shù)語的關(guān)鍵性值大于 5,多詞術(shù)語的關(guān)鍵性值大于 3.5。滿足上述最低頻次標(biāo)準(zhǔn)和關(guān)鍵性值兩個標(biāo)準(zhǔn)的備選單詞術(shù)語和多詞術(shù)語分別有 448 條和 230 條。

  接下來第二道程序是對備選詞條逐一進(jìn)行人工檢查,排除語料庫工具自動識別產(chǎn)生的少量錯誤和無關(guān)詞匯。篩選整理術(shù)語時遵循以下原則: ( 1) 無關(guān)詞匯直接排除。比如 full text 出現(xiàn)頻率約 46 PMWs,關(guān) 鍵 性 值 為 16. 6,但 是 通 常 出 現(xiàn) 在 Publisher/Free Full Text 中,指論文全文,是與 doi、 publisher、copyright holder、biorxiv preprint 等類似的論文出版相關(guān)詞匯,與主題無關(guān)。另外,由于部分論文摘要以法語寫成,或者有法語翻譯,因此一些高頻法語詞如 une、dans、des、est 等也出現(xiàn)在備選詞表中,需排除。( 2) 與 COVID-19 相關(guān),但是廣為人知或?qū)I(yè)性不強(qiáng),如地名( China、Chinese、Korea、 Wuhan、Taiwan、Saudi Arabia、Singapore、Beijing) 或其他簡單的普通名詞( background、entry、winter、 threat、disaster、re-use、tourism、traveler) 等,也進(jìn)行相應(yīng)排除。( 3) 多詞表達(dá)中部分因短語識別和分割等錯誤形成的詞條需要排除,如 i interferon、 syndrome virus。( 4) 在備選多詞表達(dá)中會有長短不一、部分重疊的短語,在收入術(shù)語表時會根據(jù)醫(yī)學(xué)常識排除一部分,收錄最常見的術(shù)語作為主體,并用括號表示其他必要的形式,在詞表排序時以主體術(shù)語的頻率計算。比如 respiratory syndrome、acute respiratory syndrome、severe acute respiratory syndrome、 severe acute respiratory syndrome coronavirus、acute respiratory syndrome coronavirus 等形式在備選詞表中均有出現(xiàn),在正式術(shù)語表中會以 severe acute respiratory syndrome ( coronavirus) 的形式出現(xiàn),并按 228.6 PMWs 的頻率排序。( 5) 不確定的詞條通過 Sketch Engine 檢索結(jié)果頁面的索引行查看詞條在聚焦語料庫中的上下文,并以權(quán)威醫(yī)學(xué)詞典作為參照并咨詢醫(yī)學(xué)專業(yè)人士,確定為 COVID-19 相關(guān)的醫(yī)學(xué)術(shù)語才收錄。

  3.3 COVID-19 術(shù)語表

  經(jīng)過上述步驟篩除、整理并參考醫(yī)學(xué)專業(yè)人士意見,COVID-19 術(shù)語表制作便完成了。成形的 COVID-19 術(shù)語表分為兩部分,其中單詞術(shù)語表含 364 個單詞,多詞術(shù)語表含 176 個多詞表達(dá),分別呈現(xiàn)在表 2 和表 3 中,并按照詞頻高低分為三個等級。MAVL 中包含的 ability、age、change、high、 number 等常見的或醫(yī)學(xué)特征不明顯的詞匯很少或幾乎沒有被收錄到 COVID-19 專題術(shù)語表內(nèi)。詞條的精簡使得術(shù)語表使用者能專注于與主題高關(guān)聯(lián)度的術(shù)語學(xué)習(xí)和應(yīng)用,節(jié)約時間,符合應(yīng)急語言服務(wù)講求效率的要求。當(dāng)然,本術(shù)語表也未將個別簡單的通用英語詞匯排除在外,比如常見的 bat、 pig、cat、dog 等,因?yàn)樵搫游镱愒~匯與病毒的起源、傳播和影響可能有極大關(guān)聯(lián),若這些詞匯被排除,為保持標(biāo)準(zhǔn)的一致性,則次常見的 calf、camel、cattle、poultry、ferret、wildlife、livestock、macaque 等表示動物的詞匯也可能被排除在外,無法客觀反映事實(shí)。

  備選術(shù)語表到正式術(shù)語表的單詞和多詞術(shù)語的人工篩除率分別為 18.75%和 23.48%。備選多詞術(shù)語篩除率稍高是因?yàn)橛胁糠肿詣忧蟹皱e誤的短語和部分重疊的詞條。相比其他語料庫詞表制作方式,Sketch Engine 更高效,人工干預(yù)更少。與前文提到的通用英語、學(xué)術(shù)英語和學(xué)科術(shù)語詞表開發(fā)相比,Sketch Engine 開發(fā)的專題術(shù)語表更具有針對性,更適用于應(yīng)急語言服務(wù),是可靠的術(shù)語挖掘和應(yīng)急術(shù)語服務(wù)工具。

  4 結(jié)語

  詞表的開發(fā)始終需要考慮使用者的需求和詞表的目的以確定收詞的詞頻范圍和針對性。沒有能滿足所有需求、適用于所有用途的詞表。本文以新冠疫情防控中的應(yīng)急語言服務(wù)為出發(fā)點(diǎn),明確了對 COVID-19 術(shù)語表的需求及本術(shù)語表的制作目的,確 定 詞 表 制 作 的 原 則 和 方 案,使 用 Sketch Engine 語料庫工具及其豐富的醫(yī)學(xué)語料庫資源高效地完成了新冠肺炎學(xué)術(shù)英語詞表的制作。在此次詞表制作實(shí)踐基礎(chǔ)上,我們總結(jié)出以目的為導(dǎo)向的詞表制作流程,該流程包括五個步驟: ( 1) 分析使用需求以確定詞表目的; ( 2) 根據(jù)目的決定詞表制作的原則; ( 3) 根據(jù)原則指導(dǎo)制定可操作的詞條篩選的量化和質(zhì)化標(biāo)準(zhǔn); ( 4) 參考相關(guān)領(lǐng)域?qū)I(yè)人士意見,檢驗(yàn)和修正詞表; ( 5) 公布詞表。后續(xù)的詞表開發(fā)可以以此流程為指引,使詞表制作流程標(biāo)準(zhǔn)化、規(guī)范化,如開發(fā) COVID-19 高頻醫(yī)學(xué)縮略語詞表,并提供縮略語的全稱及釋義等作為本詞表的補(bǔ)充,為世界各地醫(yī)護(hù)工作者和其他相關(guān)人士提供全面的新冠肺炎英文詞表支援服務(wù)。此外,詞表的應(yīng)用反饋以及修訂完善等后續(xù)工作還需要持續(xù)關(guān)注。與各學(xué)科領(lǐng)域?qū)I(yè)人士和詞表使用者在術(shù)語表的開發(fā)、應(yīng)用與研究方面的合作還需加強(qiáng),以便對專題詞表的實(shí)際使用情況進(jìn)行調(diào)查,對使用效果進(jìn)行評價,在此基礎(chǔ)上不斷對詞表進(jìn)行完善和修訂,為未來其他詞表的開發(fā)制作提供借鑒。

  本專題術(shù)語表的制作對英語詞表的類別劃分也有借鑒意義。Nation 和 Webb [37]將英語詞匯分成四個級別,一級為以 GSL [11]為代表的高頻詞,二級為以 AWL [14]為代表的學(xué)術(shù)詞匯,三級為各個學(xué)科的術(shù)語詞匯,四級為低頻詞。這種詞匯劃分的標(biāo)準(zhǔn)較為混亂,有時以詞匯使用頻率為標(biāo)準(zhǔn),有時以使用領(lǐng)域?yàn)閰^(qū)分。結(jié)合本文 COVID-19 專題詞表的開發(fā)實(shí)踐,我們將詞表分為四個類別: 第一類為通用詞表,第二類為通用學(xué)術(shù)詞表,第三類為各學(xué)科的術(shù)語詞表,第四類為專題詞表。這一詞表的類別劃分形成了一個自下而上、不斷細(xì)化的詞表開發(fā)路線圖,也是詞匯學(xué)習(xí)一般路徑的真實(shí)反映。

  和術(shù)語命名一樣,術(shù)語表的制作是一項(xiàng)基礎(chǔ)工作,是很多其他應(yīng)急服務(wù)的前提,比如術(shù)語標(biāo)準(zhǔn)化、應(yīng)急醫(yī)療口筆譯服務(wù)、翻譯術(shù)語庫建設(shè)、機(jī)器翻譯、學(xué)術(shù)詞匯教學(xué)與科研等。術(shù)語命名和術(shù)語表開發(fā)及其后續(xù)應(yīng)用和研究構(gòu)成國家應(yīng)急術(shù)語能力,是國家應(yīng)急語言能力建設(shè)的重要環(huán)節(jié)和重要組成部分,值得學(xué)術(shù)語言研究者、詞表開發(fā)者以及應(yīng)急語言服務(wù)供求雙方的高度重視。