我國傳統蒙古文印刷體文字識別軟件研究取得重大進展_印刷新聞_紙引未來網

我國傳統蒙古文印刷體文字識別軟件研究取得重大進展

發布日期：2016-11-30??來源：互聯網??作者：紙引未來

核心提示：

我國傳統蒙古文印刷體文字識別軟件(OCR)研究取得重大進展。據其研發者烏日力嘎博士向新華網內蒙古頻道獨家披露，目前OCR軟件對蒙古文白體的識別率已達到99%以上，對鉛印版的識別率也達到95%以上。

隨著互聯網的高速發展,網絡已經成為人們共享信息的一個大平臺。“在信息共享的大平臺之中，蒙古文信息的傳播因為數字化處理的識別限制，變得極為繁瑣和無奈。”畢業于內蒙古大學的烏日力嘎博士直言不諱。

“傳統蒙古文有大量的圖書、報刊，但其中很多都沒有實現數字化，”烏日力嘎博士介紹說，高效數字化需要OCR(Optical Character Recognition)軟件自動識別掃描或拍照的圖片，將圖片中的文字轉換成文本。

據了解，本世紀初伊始，就陸續有科研機構、相關公司嘗試開發傳統蒙古文自動識別軟件，但因為識別準確率不高、操作繁瑣等諸多原因，使用者至今未能等到可廣泛使用和可信賴的產品。烏日力嘎博士卻憑借自己的執著追求和一己之力，用不到兩年時間完成了這一傳統蒙古文印刷體OCR。

“讀博士期間研究機器翻譯，機器翻譯需要大量的語言資源，但是蒙古文的資源特別少，我們在建立語言數據庫時需要大量的人力、時間和經費，”烏日力嘎博士說：“從那個時候起，我就萌發一個念頭，自己是否也試著研發一款高精度的蒙古文自動識別系統。”

2015年夏天博士畢業之后，烏日力嘎開始全身心地投入到傳統蒙古文OCR軟件的開發之中，她參考了國內外大量學術文獻，并使用深度學習和語言模型等高新技術，在短時間內成功研發出了蒙古文高精度自動識別軟件。據介紹，這一軟件的優勢是既能識別掃描圖片，又能識別拍照的圖片，并且將打字和校對的功能融為一體。

“上世紀90年代以前的書本都是鉛印版本，但目前還沒有其他可以把鉛印版轉換成文本的軟件，而烏日力嘎博士研究的軟件優勢是能識別鉛印版，并且有承前啟后的作用，”內蒙古大學教授那順烏日圖認為，烏日力嘎研究的軟件理論上有創新，這一軟件結合語言規則和統計方法，再利用深度學習和神經網絡等新技術來完成的。因為以前的OCR軟件是基于規則或者是基于統計的方法來實現的，他們最終效果都不理想。

烏日力嘎最后表示，希望她所開發的這款軟件能為廣大的蒙古語言文字工作者帶來更多的工作上的便利。

• 印刷老板開廠27年，卻只賺了個寂寞……	• 瑞幸與茅臺這波聯名創下記錄！印刷包裝業成背后
• 東莞18家造紙及印刷包裝企業上榜倍增計劃試點名	• 印刷業總產值達1.43萬億元，整體規模躍居世界第
• 這家低調而神秘的河南印刷大佬，年營收14億+，	• 涿州洪水，車間水深超3米！印刷機、原材料、半
• 擅自排版印刷《六級備考指南》等資料，新東方旗	• 24家國家印刷示范企業獲得評審認定
• 全面采用數字印刷，究竟離我們還有多遠？	• 印刷領域兩大龍頭企業強勢聚能

推薦商家

推薦商家

推薦商家

推薦商家

我國傳統蒙古文印刷體文字識別軟件研究取得重大進展

【生意】印刷廠里，折	朝鮮“荒蕪地”，卻是
企業發展綠色印刷從“