期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:期刊常識時間:瀏覽:次
【摘 要】論文通過對文字識別技術(shù),特別是中文手寫識別技術(shù)的分析和文字識別技術(shù)的應(yīng)用研究,及檔案工作的回顧分析,探索并提出文字識別技術(shù)在檔案工作中的應(yīng)用場景,為數(shù)字化時代的檔案工作提供思路。
【關(guān)鍵詞】文字識別;檔案管理;應(yīng)用場景
1 引言
數(shù)據(jù)采集是所有工作的起點,并決定了解決效果的上限。利用文字識別技術(shù),目前大量的文檔采集從專有設(shè)備轉(zhuǎn)向了普通手機,數(shù)據(jù)采集者也從專業(yè)辦公人員轉(zhuǎn)向普通用戶。
2 文字識別技術(shù)現(xiàn)狀分析
計算機文字識別,又名光學(xué)字符識別、OCR識別,是利用光學(xué)技術(shù)和電子信息技術(shù)把印在或?qū)懺诩埳系奈淖痔崛〕鰜恚⑥D(zhuǎn)換成一種計算機能夠接受、人又可以理解的形式。OCR技術(shù)是實現(xiàn)文字高速輸入的一項核心技術(shù)。
2.1 文字識別技術(shù)的發(fā)展
2.1.1 西文識別技術(shù)的發(fā)展
在OCR技術(shù)中,印刷體文字識別是開展最早、技術(shù)上最為成熟的一個。早在20世紀20年代末期德國科學(xué)家最早取得了光學(xué)字符識別的專利。西方國家為了將大量報章雜志、文件材料和票據(jù)表格等紙質(zhì)材料輸入計算機進行信息處理,從20世紀50年代就開始了西文文字識別技術(shù)的研究。隨著信息技術(shù)的飛速發(fā)展與研究人員的不斷探索和完善,西文文字識別技術(shù)現(xiàn)已逐漸滲透于各行各業(yè)。
2.1.2 中文識別技術(shù)的發(fā)展
第一,中文印刷體識別技術(shù)的發(fā)展。
與印刷體西文文字識別相比,漢字的印刷體識別技術(shù)的研究是在字母和數(shù)字的印刷體識別基礎(chǔ)上發(fā)展起來的,發(fā)源于20世紀60年代。60年代中期,BIM公司的工作人員發(fā)表了首篇關(guān)于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了一千個印刷體漢字。從70年代以來,日本研究人員在漢字識別方面做了許多探索和發(fā)明,其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識別兩千個獨立印刷體漢字的識別系統(tǒng);80年代早期,日本武藏野電氣研究所研制的可以識別兩千三百個連續(xù)漢字的識別系統(tǒng),代表了當時漢文OCR識別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字轉(zhuǎn)換的計算方法,使用了大量專用設(shè)備,甚至有的相當于大型機,價格不菲,所以并沒有得到普及和推廣。
印刷體的中文識別自20世紀80年代中期規(guī)模發(fā)展以來,清華大學(xué)、中科院、沈陽自動化研究所等一眾單位分別研制并開發(fā)出了可以量產(chǎn)的印刷體中文OCR識別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識別產(chǎn)品和由漢王開發(fā)的尚書文字識別產(chǎn)品,它們占據(jù)著OCR技術(shù)的領(lǐng)先地位,并擁有最多的OCR客戶,代表著印刷體中文OCR技術(shù)的未來發(fā)展趨勢。目前,印刷體中文識別技術(shù)已經(jīng)從簡單的文字識別逐漸發(fā)展到了表格的自動識別、自動輸入的研究階段,圖片文字混合、各種語言混合下的內(nèi)容提取、語義理解,各種卡片、票據(jù)的識別和歷史文獻的識別等都逐漸開展起來。多種相關(guān)的識別系統(tǒng)如雨后春筍般應(yīng)運而生,如紫光文通推出的名片識別系統(tǒng)和慧視屏幕文字圖像識別系統(tǒng)等。這些新的識別系統(tǒng)的出現(xiàn),標志著印刷體中文識別技術(shù)的應(yīng)用領(lǐng)域得到了擴展。
第二,中文手寫識別技術(shù)的發(fā)展。
中文手寫識別由于信息的獲取形式不同,可以劃分為非在線中文手寫識別和在線中文手寫識別兩種。在線中文手寫識別所處理的手寫體漢字是書寫者通過物理設(shè)備在線輸入獲取的文字信號,筆畫的順序通過計時器采樣實時輸入計算機中。非在線中文手寫識別所處理的手寫漢字是通過掃描設(shè)備或手機攝像頭等圖片抓取設(shè)備采集到的手寫漢字圖片。
近年來,百度OCR技術(shù)在檢測、識別和端到端三個核心技術(shù)領(lǐng)域多次取得并保持了世界第一的排名,具備較明顯的領(lǐng)先優(yōu)勢。騰訊集團的數(shù)平精準推薦團隊研發(fā)了一種適用于各個角度漢字的點對點提取方法,能夠有效解決文字尺度不一、形態(tài)萬千和檢測器對標準過于敏感等問題,大幅提高了測試步驟的準確度。
如果您現(xiàn)在遇到期刊選擇、論文內(nèi)容改善、論文投稿周期長、難錄用、多次退修、多次被拒等問題,可以告訴學(xué)術(shù)顧問,解答疑問同時給出解決方案 。