文字識(shí)別技術(shù)在人事檔案工作中應(yīng)用的前景研究

來(lái)源：期刊VIP網(wǎng)所屬分類：期刊常識(shí)時(shí)間：瀏覽：次

　　【摘要】論文通過(guò)對(duì)文字識(shí)別技術(shù)，特別是中文手寫識(shí)別技術(shù)的分析和文字識(shí)別技術(shù)的應(yīng)用研究，及檔案工作的回顧分析，探索并提出文字識(shí)別技術(shù)在檔案工作中的應(yīng)用場(chǎng)景，為數(shù)字化時(shí)代的檔案工作提供思路。

　　【關(guān)鍵詞】文字識(shí)別;檔案管理;應(yīng)用場(chǎng)景

檔案工程師論文

　　1 引言

　　數(shù)據(jù)采集是所有工作的起點(diǎn)，并決定了解決效果的上限。利用文字識(shí)別技術(shù)，目前大量的文檔采集從專有設(shè)備轉(zhuǎn)向了普通手機(jī)，數(shù)據(jù)采集者也從專業(yè)辦公人員轉(zhuǎn)向普通用戶。

　　2 文字識(shí)別技術(shù)現(xiàn)狀分析

　　計(jì)算機(jī)文字識(shí)別，又名光學(xué)字符識(shí)別、OCR識(shí)別，是利用光學(xué)技術(shù)和電子信息技術(shù)把印在或?qū)懺诩埳系奈淖痔崛〕鰜?lái)，并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的形式。OCR技術(shù)是實(shí)現(xiàn)文字高速輸入的一項(xiàng)核心技術(shù)。

　　2.1 文字識(shí)別技術(shù)的發(fā)展

　　2.1.1 西文識(shí)別技術(shù)的發(fā)展

　　在OCR技術(shù)中，印刷體文字識(shí)別是開展最早、技術(shù)上最為成熟的一個(gè)。早在20世紀(jì)20年代末期德國(guó)科學(xué)家最早取得了光學(xué)字符識(shí)別的專利。西方國(guó)家為了將大量報(bào)章雜志、文件材料和票據(jù)表格等紙質(zhì)材料輸入計(jì)算機(jī)進(jìn)行信息處理，從20世紀(jì)50年代就開始了西文文字識(shí)別技術(shù)的研究。隨著信息技術(shù)的飛速發(fā)展與研究人員的不斷探索和完善，西文文字識(shí)別技術(shù)現(xiàn)已逐漸滲透于各行各業(yè)。

　　2.1.2 中文識(shí)別技術(shù)的發(fā)展

　　第一，中文印刷體識(shí)別技術(shù)的發(fā)展。

　　與印刷體西文文字識(shí)別相比，漢字的印刷體識(shí)別技術(shù)的研究是在字母和數(shù)字的印刷體識(shí)別基礎(chǔ)上發(fā)展起來(lái)的，發(fā)源于20世紀(jì)60年代。60年代中期，BIM公司的工作人員發(fā)表了首篇關(guān)于印刷體漢字識(shí)別的論文，在這篇論文中他們利用簡(jiǎn)單的模板匹配法，識(shí)別了一千個(gè)印刷體漢字。從70年代以來(lái)，日本研究人員在漢字識(shí)別方面做了許多探索和發(fā)明，其中比較著名的系統(tǒng)有70年代東芝綜合研究所研制的可以識(shí)別兩千個(gè)獨(dú)立印刷體漢字的識(shí)別系統(tǒng);80年代早期，日本武藏野電氣研究所研制的可以識(shí)別兩千三百個(gè)連續(xù)漢字的識(shí)別系統(tǒng)，代表了當(dāng)時(shí)漢文OCR識(shí)別的最高水平。此外，日本的松下、富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上，大都采用基于K-L數(shù)字轉(zhuǎn)換的計(jì)算方法，使用了大量專用設(shè)備，甚至有的相當(dāng)于大型機(jī)，價(jià)格不菲，所以并沒(méi)有得到普及和推廣。

　　印刷體的中文識(shí)別自20世紀(jì)80年代中期規(guī)模發(fā)展以來(lái)，清華大學(xué)、中科院、沈陽(yáng)自動(dòng)化研究所等一眾單位分別研制并開發(fā)出了可以量產(chǎn)的印刷體中文OCR識(shí)別系統(tǒng)。尤其是由清華電子工程系研制的清華文字識(shí)別產(chǎn)品和由漢王開發(fā)的尚書文字識(shí)別產(chǎn)品，它們占據(jù)著OCR技術(shù)的領(lǐng)先地位，并擁有最多的OCR客戶，代表著印刷體中文OCR技術(shù)的未來(lái)發(fā)展趨勢(shì)。目前，印刷體中文識(shí)別技術(shù)已經(jīng)從簡(jiǎn)單的文字識(shí)別逐漸發(fā)展到了表格的自動(dòng)識(shí)別、自動(dòng)輸入的研究階段，圖片文字混合、各種語(yǔ)言混合下的內(nèi)容提取、語(yǔ)義理解，各種卡片、票據(jù)的識(shí)別和歷史文獻(xiàn)的識(shí)別等都逐漸開展起來(lái)。多種相關(guān)的識(shí)別系統(tǒng)如雨后春筍般應(yīng)運(yùn)而生，如紫光文通推出的名片識(shí)別系統(tǒng)和慧視屏幕文字圖像識(shí)別系統(tǒng)等。這些新的識(shí)別系統(tǒng)的出現(xiàn)，標(biāo)志著印刷體中文識(shí)別技術(shù)的應(yīng)用領(lǐng)域得到了擴(kuò)展。

　　第二，中文手寫識(shí)別技術(shù)的發(fā)展。

　　中文手寫識(shí)別由于信息的獲取形式不同，可以劃分為非在線中文手寫識(shí)別和在線中文手寫識(shí)別兩種。在線中文手寫識(shí)別所處理的手寫體漢字是書寫者通過(guò)物理設(shè)備在線輸入獲取的文字信號(hào)，筆畫的順序通過(guò)計(jì)時(shí)器采樣實(shí)時(shí)輸入計(jì)算機(jī)中。非在線中文手寫識(shí)別所處理的手寫漢字是通過(guò)掃描設(shè)備或手機(jī)攝像頭等圖片抓取設(shè)備采集到的手寫漢字圖片。

　　近年來(lái)，百度OCR技術(shù)在檢測(cè)、識(shí)別和端到端三個(gè)核心技術(shù)領(lǐng)域多次取得并保持了世界第一的排名，具備較明顯的領(lǐng)先優(yōu)勢(shì)。騰訊集團(tuán)的數(shù)平精準(zhǔn)推薦團(tuán)隊(duì)研發(fā)了一種適用于各個(gè)角度漢字的點(diǎn)對(duì)點(diǎn)提取方法，能夠有效解決文字尺度不一、形態(tài)萬(wàn)千和檢測(cè)器對(duì)標(biāo)準(zhǔn)過(guò)于敏感等問(wèn)題，大幅提高了測(cè)試步驟的準(zhǔn)確度。

　　推薦閱讀：房地產(chǎn)檔案管理論文怎么發(fā)表

如果您現(xiàn)在遇到期刊選擇、論文內(nèi)容改善、論文投稿周期長(zhǎng)、難錄用、多次退修、多次被拒等問(wèn)題，可以告訴學(xué)術(shù)顧問(wèn)，解答疑問(wèn)同時(shí)給出解決方案。

上一篇：環(huán)境類被sci收錄的期刊

下一篇：《生態(tài)學(xué)報(bào)》雜志發(fā)表論文格式

2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

文字識(shí)別技術(shù)在人事檔案工作中應(yīng)用的前景研究

查看北核目錄大全及期刊首頁(yè)

相關(guān)推薦

最新期刊常識(shí)文章推薦

專題專項(xiàng)服務(wù)