“一氣呵成”的數字出版策略
單從數據層面講,電子印刷相對傳統鉛字排版印刷只是載體改變,目的還是“印刷”呈現,而數字出版則是全新的理念。
數字出版是建立在計算機技術、存儲技術、顯示技術、網絡技術和流媒體技術等高新技術基礎上,在內容的編輯、制作、發行、傳播等出版全過程中,將所有信息都以統一二進制代碼的數字化形式存儲。其核心是“一字一碼”,這個編碼在全球范圍內是唯一的,即國際標準編碼。
為了實現數字出版,項目組最終確立了紙、電一氣呵成的出版策略。從電子印刷邁向數字出版,意味著轉變觀念、調整工作模式和技術創新。《辭源》修訂工作原本就時間緊、任務重,這種策略的調整無疑雪上加霜。為此,專門成立了字形組,對《辭源》用字進行全面整理。
為了在短時間內實現這一跨越,字形組在主編指導下,制定了較為科學的技術路線和實施方案,從摸清情況、制定原則和技術實現3個層面,分6個步驟對《辭源》用字進行整理,為實現《辭源》第三版從電子印刷邁向數字出版打下基礎。
《辭源》用字面臨挑戰
修訂人員以2010年《辭源》紀念版為基礎,利用其紙質版和電子印刷數據,對《辭源》用字進行徹底清理,從中提取出用字16000余個,并且摸清了《辭源》的用字狀況。《辭源》初版于1915年面市,距今已百年,由于歷史沉積和印刷技術條件所限,其用字存在一字多形、新舊并存等現象,這是呈現層面的問題;電子印刷數據則存在一碼多字、多字一碼等情況,這是印刷平臺系統底層的問題。2010年版《辭源》的電子印刷平臺是以國家編碼標準GB2312的6763漢字為核心編碼,繁體字和集外字均通過切換字庫來實現,這是權宜之計。同時,該平臺為了排版印刷的方便,開放了自造字功能,導致一個編碼對應多個漢字和多個漢字對應一個編碼的現象頻出。這樣的數據無法實現有效的信息檢索、準確的信息傳遞和直接的信息交換,是實現數字出版的最大障礙。
《辭源》的字形原則
《辭源》是“閱讀古籍用的工具書和古典文史研究工作者的參考書”,它的主要功能是“用來解決閱讀古籍時遇到的關于語詞典故和有關古代名物典章制度等知識性疑難問題”。按照這個功能定位,字形組根據10億字古籍語料庫的用字頻率,并參照《康熙字典》和《中華大字典》等權威工具書,確立了其字形原則。
依據《辭源》的字形原則,從字樣、字位、字種三個層面對其用字進行規范,對一字多形、一字多碼、多碼一字等問題進行歸一化處理,并從部首、部件乃至筆畫層面對字形進行細致入微的規范,確保字庫的字體形態符合《辭源》的功能定位,也確保字庫在整體風格上的一致性。
原始數據跨平臺移植
數字出版的基本要求是一個漢字應有一個唯一編碼。基于國際編碼標準ISO10646框架的計算機平臺,可以滿足《辭源》“一字一碼”的需求,而且能實現有效的信息檢索、準確的信息傳遞和直接的信息交換。因此,對《辭源》印刷平臺編碼方式的梳理,并將其用字與國際編碼標準對接,是實現數字出版最基礎,也是最必要的工作。
《辭源》用字與國際編碼標準對接后,采取技術手段將1000多萬字的原始數據一次性從封閉、不可對外交換的平臺,移植到基于國際編碼標準、可交換的開放平臺,避免了繁瑣的人工修改,以及用字上的不一致等問題,移植后的數據可直接用于數字出版。
總體來講,《辭源》的用字整理工作具有里程碑意義。首先,它不僅解決了《辭源》用字在表面呈現上的規范一致性,而且還徹底解決了底層編碼的標準統一性,后者則是數字出版的重要基礎。其次,它實現了印刷數據與數字出版的無縫對接,做到了紙、電同步出版,尤為重要的是,確保了不同出版形式在內容上的完全統一,這也是《辭源》數字版的主要特點。最后,它也為實現電子印刷數據的跨平臺移植,探索了一條切實可行的技術途徑。
事實說明,《辭源》紙質版與數字版“一氣呵成”的出版策略是正確的、可行的,不但沒有影響紙本正常出版,更有利地推進了數字版的出版進程,降低了數字出版的成本。可以說,此次的用字整理工作,是《辭源》從電子印刷邁向數字出版的基石。