期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒(méi)有后顧之憂
來(lái)源:期刊VIP網(wǎng)所屬分類:期刊常識(shí)時(shí)間:瀏覽:次
【摘 要】論文通過(guò)對(duì)文字識(shí)別技術(shù),特別是中文手寫識(shí)別技術(shù)的分析和文字識(shí)別技術(shù)的應(yīng)用研究,及檔案工作的回顧分析,探索并提出文字識(shí)別技術(shù)在檔案工作中的應(yīng)用場(chǎng)景,為數(shù)字化時(shí)代的檔案工作提供思路。
【關(guān)鍵詞】文字識(shí)別;檔案管理;應(yīng)用場(chǎng)景
1 引言
數(shù)據(jù)采集是所有工作的起點(diǎn),并決定了解決效果的上限。利用文字識(shí)別技術(shù),目前大量的文檔采集從專有設(shè)備轉(zhuǎn)向了普通手機(jī),數(shù)據(jù)采集者也從專業(yè)辦公人員轉(zhuǎn)向普通用戶。
2 文字識(shí)別技術(shù)現(xiàn)狀分析
計(jì)算機(jī)文字識(shí)別,又名光學(xué)字符識(shí)別、OCR識(shí)別,是利用光學(xué)技術(shù)和電子信息技術(shù)把印在或?qū)懺诩埳系奈淖痔崛〕鰜?lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的形式。OCR技術(shù)是實(shí)現(xiàn)文字高速輸入的一項(xiàng)核心技術(shù)。
2.1 文字識(shí)別技術(shù)的發(fā)展
2.1.1 西文識(shí)別技術(shù)的發(fā)展
在OCR技術(shù)中,印刷體文字識(shí)別是開展最早、技術(shù)上最為成熟的一個(gè)。早在20世紀(jì)20年代末期德國(guó)科學(xué)家最早取得了光學(xué)字符識(shí)別的專利。西方國(guó)家為了將大量報(bào)章雜志、文件材料和票據(jù)表格等紙質(zhì)材料輸入計(jì)算機(jī)進(jìn)行信息處理,從20世紀(jì)50年代就開始了西文文字識(shí)別技術(shù)的研究。隨著信息技術(shù)的飛速發(fā)展與研究人員的不斷探索和完善,西文文字識(shí)別技術(shù)現(xiàn)已逐漸滲透于各行各業(yè)。
2.1.2 中文識(shí)別技術(shù)的發(fā)展
第一,中文印刷體識(shí)別技術(shù)的發(fā)展。
與印刷體西文文字識(shí)別相比,漢字的印刷體識(shí)別技術(shù)的研究是在字母和數(shù)字的印刷體識(shí)別基礎(chǔ)上發(fā)展起來(lái)的,發(fā)源于20世紀(jì)60年代。60年代中期,BIM公司的工作人員發(fā)表了首篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法,識(shí)別了一千個(gè)印刷體漢字。從70年代以來(lái),日本研究人員在漢字識(shí)別方面做了許多探索和發(fā)明,其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識(shí)別兩千個(gè)獨(dú)立印刷體漢字的識(shí)別系統(tǒng);80年代早期,日本武藏野電氣研究所研制的可以識(shí)別兩千三百個(gè)連續(xù)漢字的識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢文OCR識(shí)別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于K-L數(shù)字轉(zhuǎn)換的計(jì)算方法,使用了大量專用設(shè)備,甚至有的相當(dāng)于大型機(jī),價(jià)格不菲,所以并沒(méi)有得到普及和推廣。
印刷體的中文識(shí)別自20世紀(jì)80年代中期規(guī)模發(fā)展以來(lái),清華大學(xué)、中科院、沈陽(yáng)自動(dòng)化研究所等一眾單位分別研制并開發(fā)出了可以量產(chǎn)的印刷體中文OCR識(shí)別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識(shí)別產(chǎn)品和由漢王開發(fā)的尚書文字識(shí)別產(chǎn)品,它們占據(jù)著OCR技術(shù)的領(lǐng)先地位,并擁有最多的OCR客戶,代表著印刷體中文OCR技術(shù)的未來(lái)發(fā)展趨勢(shì)。目前,印刷體中文識(shí)別技術(shù)已經(jīng)從簡(jiǎn)單的文字識(shí)別逐漸發(fā)展到了表格的自動(dòng)識(shí)別、自動(dòng)輸入的研究階段,圖片文字混合、各種語(yǔ)言混合下的內(nèi)容提取、語(yǔ)義理解,各種卡片、票據(jù)的識(shí)別和歷史文獻(xiàn)的識(shí)別等都逐漸開展起來(lái)。多種相關(guān)的識(shí)別系統(tǒng)如雨后春筍般應(yīng)運(yùn)而生,如紫光文通推出的名片識(shí)別系統(tǒng)和慧視屏幕文字圖像識(shí)別系統(tǒng)等。這些新的識(shí)別系統(tǒng)的出現(xiàn),標(biāo)志著印刷體中文識(shí)別技術(shù)的應(yīng)用領(lǐng)域得到了擴(kuò)展。
第二,中文手寫識(shí)別技術(shù)的發(fā)展。
中文手寫識(shí)別由于信息的獲取形式不同,可以劃分為非在線中文手寫識(shí)別和在線中文手寫識(shí)別兩種。在線中文手寫識(shí)別所處理的手寫體漢字是書寫者通過(guò)物理設(shè)備在線輸入獲取的文字信號(hào),筆畫的順序通過(guò)計(jì)時(shí)器采樣實(shí)時(shí)輸入計(jì)算機(jī)中。非在線中文手寫識(shí)別所處理的手寫漢字是通過(guò)掃描設(shè)備或手機(jī)攝像頭等圖片抓取設(shè)備采集到的手寫漢字圖片。
近年來(lái),百度OCR技術(shù)在檢測(cè)、識(shí)別和端到端三個(gè)核心技術(shù)領(lǐng)域多次取得并保持了世界第一的排名,具備較明顯的領(lǐng)先優(yōu)勢(shì)。騰訊集團(tuán)的數(shù)平精準(zhǔn)推薦團(tuán)隊(duì)研發(fā)了一種適用于各個(gè)角度漢字的點(diǎn)對(duì)點(diǎn)提取方法,能夠有效解決文字尺度不一、形態(tài)萬(wàn)千和檢測(cè)器對(duì)標(biāo)準(zhǔn)過(guò)于敏感等問(wèn)題,大幅提高了測(cè)試步驟的準(zhǔn)確度。
如果您現(xiàn)在遇到期刊選擇、論文內(nèi)容改善、論文投稿周期長(zhǎng)、難錄用、多次退修、多次被拒等問(wèn)題,可以告訴學(xué)術(shù)顧問(wèn),解答疑問(wèn)同時(shí)給出解決方案 。