日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

SCI期刊 | 網(wǎng)站地圖 周一至周日 8:00-22:30
你的位置:首頁 >  圖書檔案 ? 正文

古騰堡計劃電子圖書的校對方法

2021-4-9 | 圖書檔案

 

1引言

 

“古騰堡計劃”是全球最具影響力的免費電子書網(wǎng)站之一。它由美國的邁克爾•哈特(MichaelHart)創(chuàng)建于1971年。經(jīng)過多年的發(fā)展,它已擁有超過38000種精校圖書向全球讀者提供免費服務(wù),既可以在線閱讀,也可以下載mobi、epub等格式的文件在亞馬遜、蘋果等廠商生產(chǎn)的移動設(shè)備上閱讀。2012年2月,其Alexa全球排名已進入前5000位。“古騰堡計劃”采用了分布式建設(shè)的模式,其圖書大多由來自世界各地的眾多志愿者進行加工。由于志愿者在能力、素質(zhì)以及工作熱情等方面存在著諸多差異,為保證古騰堡圖書的質(zhì)量,加強校對的精度顯得日益重要。在這個背景下,2000年,CharlesFranks建立了“分布式校對”系統(tǒng),以支持“古騰堡計劃”圖書的數(shù)字化文本建設(shè)。最初,這個“分布式校對”系統(tǒng)從屬于“古騰堡計劃”。2002年,它有了自己的官方網(wǎng)站。2006年,它成為單獨的法人實體,但依然與“古騰堡計劃”有著密切的聯(lián)系,由這個系統(tǒng)產(chǎn)生的電子書,是“古騰堡計劃”圖書最重要的來源[1]。

 

2“古騰堡計劃”電子圖書制作流程

 

“古騰堡計劃”的電子圖書之所以受到廣泛歡迎,是因為它既是免費的,又是高質(zhì)量的。它的圖書制作遵循著一個非常嚴格的流程:(1)使用在線的軟件和數(shù)據(jù)庫創(chuàng)建圖書館。(2)世界各地的內(nèi)容提供者將圖書掃描,并將掃描件上傳到圖書館。“古騰堡計劃”根據(jù)美國版權(quán)法對電子書進行版權(quán)驗證,只有版權(quán)過期者才可以添加到計劃的列表中。(3)參與校對的志愿者選擇一本圖書進行校對。(4)這時候,網(wǎng)站會顯示給校對者一個網(wǎng)頁,內(nèi)容包括掃描文件和通過文字識別軟件產(chǎn)生的文本文件,校對者通過兩者的比對進行校對。這極大地減少了校對者的工作量。(5)除了修正文字識別軟件所產(chǎn)生的文本中的錯誤,校對者還需標注原著中的粗體、斜體字以及腳注等內(nèi)容。(6)校對是協(xié)作式的,來自世界各地的志愿者通過互聯(lián)網(wǎng)可能對同一本書的不同頁進行校對。校對者在完成了對某本圖書一頁的校對后,可以再申請新的校對頁,也可以退出校對。有意思的是,“古騰堡計劃”并不鼓勵校對者一天校對太多的頁數(shù),他們的建議是“一天一頁”。他們認為,每個人每天對校對工作貢獻的綿薄之力,最終會形成生產(chǎn)數(shù)字圖書的強大力量。2004年,“古騰堡計劃”的管理者自豪地宣布:平均每天有300~400個志愿者參與校對工作,平均每天完成校對頁數(shù)4000~7000個,這意味著每分鐘完成校對4個圖書頁。實際上,2004年以后,志愿者數(shù)量和校對頁數(shù)總量等數(shù)據(jù)每年都有相當大的增長[2]。(7)校對過的圖書頁會保存在網(wǎng)站的數(shù)據(jù)庫中,等待下一輪的校對。“古騰堡計劃”的校對會有2輪,以盡量避免錯誤的發(fā)生。(8)當所有的圖書頁都經(jīng)過2輪校對后,“古騰堡計劃”的處理軟件會將其整合成一本完整的數(shù)字圖書,并且再進行一次錯誤檢查。由于一本書的校對很可能是由多人完成,因此這時的重點在于一致性的檢查上。(9)通過檢查后的圖書會被歸檔,并上傳到全球各地的鏡像站點,向全世界提供免費閱讀和下載[3]。可以看出,“古騰堡計劃”的數(shù)字圖書制作,奉行“質(zhì)量優(yōu)先”的原則。雖然它的圖書數(shù)量并不太多,但涵蓋了莎士比亞、列夫•托爾斯泰、馬克•吐溫等著名作家的經(jīng)典作品,另外也包含了許多非文學類的名家名作,而且這些都是相對可靠的電子文本,為世界各地的讀者進行閱讀、欣賞和研究提供了極大的便利。

 

3分布式校對的幾個關(guān)鍵環(huán)節(jié)

 

3.1分布式校對與集中化管理

 

“古騰堡計劃”的圖書校對和制作雖然是由各地的志愿者采用分布式的方法完成的,但其基礎(chǔ)卻是集中化管理。在版權(quán)認定、決定哪些圖書可以進行掃描、校對與提交以及圖書的整合、發(fā)布等方面,都不是由志愿者自由和隨意地進行,而是由“古騰堡計劃”的核心小組統(tǒng)一安排。“古騰堡計劃”的管理者會在廣泛搜羅圖書的基礎(chǔ)上對未加工的圖書進行審查和鑒定。作為非贏利性組織,“古騰堡計劃”準備加工圖書的來源非常龐雜,很多圖書來自圖書拍賣會、圖書館的剔舊以及各類捐贈。志愿者會將這些圖書的封面、封底和版權(quán)頁掃描,送交“古騰堡計劃”的版權(quán)小組進行審查。版權(quán)小組由熟悉知識產(chǎn)權(quán)領(lǐng)域法規(guī)的專家組成。只有通過審查的圖書,才會被允許進行數(shù)字化加工。這一舉措,有效地避免了可能出現(xiàn)的知識產(chǎn)權(quán)糾紛。一旦通過了版權(quán)審查,相應(yīng)的紙質(zhì)圖書會被送交個別志愿者,他們將書脊拆散后掃描,在得到掃描圖像的同時,用文字識別軟件產(chǎn)生與圖像文件對應(yīng)的文本,然后將這些文件上傳到服務(wù)器。這一工作過程也是相對集中的,僅由少數(shù)較為可靠的志愿者完成,這樣可以保證掃描與文字識別的精度。上傳到服務(wù)器的文件進入“分布式校對”系統(tǒng),發(fā)布在互聯(lián)網(wǎng)上。這時來自世界各地的眾多志愿者就可以利用該系統(tǒng)進行分布式校對。在所有的工作環(huán)節(jié)中,項目管理員(ProjectManager)、后期制作員(PostProcessor)發(fā)揮著重要作用。項目管理員負責監(jiān)控數(shù)字圖書的制作過程,后期制作員負責在校對完成后整本圖書的整合工作,包括確定圖書的題名是否正確、圖書結(jié)構(gòu)是否完整、是否有缺頁等[4]??梢钥吹剑?ldquo;分布式校對”系統(tǒng)的設(shè)計針對的是在電子書制作中工作量最大的校對環(huán)節(jié),它運用Web2.0的思維,利用眾多志愿者的合力突破了圖書數(shù)字化工作中的瓶頸。同時,在電子圖書的制作過程中堅持嚴格的質(zhì)量控制,在目標確認、工作流程制定、質(zhì)量監(jiān)測、圖書發(fā)布等環(huán)節(jié)均由專家進行集中化管理,遵循嚴謹?shù)囊?guī)范。

 

3.2校次的管理

 

為了防止疏漏和失誤,“古騰堡計劃”電子圖書的分布式校對并非一次成型,而是堅持多次交叉校對。他們把不同階段的校對文本分為“銅文本”(Bronzee-texts)、“銀文本”(Silvere-texts)和“金文本”(Golde-texts),這與中國古代校讎的“三校”制有異曲同工之妙[5]。“銅文本”指那些處于最初校對階段的文本,任何注冊后的志愿者都可以在上面展開工作,主要任務(wù)是清除用軟件進行文字識別所產(chǎn)生的錯誤。新加入的志愿者只能從事這一階段的工作,整本圖書的后期加工與合成則由富有經(jīng)驗的資深志愿者完成。“銀文本”指那些已經(jīng)經(jīng)過校對并按照規(guī)定的編排格式整合成型、處于后期加工階段的圖書,這一階段的主要任務(wù)是進行一系列準確性和一致性的檢查。“金文本”指那些完成了一系列校對、格式編排、后期加工等程序,提交到古騰堡網(wǎng)站供讀者下載使用的圖書。當然,這類圖書的文本也并非不可更改。考慮到數(shù)字圖書生產(chǎn)的復雜性,各個環(huán)節(jié)的工作稍有疏忽都可能造成錯誤,“古騰堡計劃”建立起了強大的報錯機制。志愿者和普通讀者都可以向古騰堡的管理者報告其正式發(fā)布的圖書中的錯誤。對于報錯,“古騰堡計劃”也有一套自己的流程和標準,例如對目錄錯誤和文本錯誤的報告區(qū)別對待,對如何報告缺字、排印錯誤等,都有具體的要求[6]。嚴格的校次管理,保證了數(shù)字圖書的質(zhì)量。強大的報錯機制,使得“古騰堡計劃”的圖書始終處于不斷自我完善的過程之中。

Top