期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘要:字頻指的是漢字的出現頻率,即某個漢字在一定語料中使用(出現)的次數與樣本總字數的比率。文章發表在《出版科學》上,是核心文學論文發表范文,供同行參考。
關鍵詞:漢字,統計方法
一、漢字字頻統計的概念
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統的文字學認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現出一定的統計規律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”
對使用中的漢字進行字頻統計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據,對漢字規范、漢字教學及漢字信息處理有重要意義。漢字字頻統計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統計的主要成果
以往的漢字字頻統計與研究取得了重要的研究成果,為漢字的研究與應用作出了重要的貢獻。字頻統計一般分綜合字頻統計及分類字頻統計兩類。其代表性成果主要有以下幾項:
現代漢字綜合字頻統計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統計使用的語料時間范圍為1973-1975年,語料內容包括科學技術、文學藝術、政治理論和新聞通訊四類,統計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統計得出6376個字種。
三、漢字字頻統計存在的主要問題
盡管漢字字頻統計取得了諸多重要的研究成果,但是,由于受漢字自身的復雜性以及漢字信息處理技術的局限性等因素的影響,目前的漢字字頻統計還存在很多問題,影響了字頻統計的質量。其問題主要表現在以下幾個方面:
1.近些年來多數漢字字頻統計依據的是電子語料庫,這些電子語料庫建庫目標主要是為語言研究服務的,加之計算機字庫收字的限制,在把紙質文本轉換成電子文本的過程中未能保持文字使用的原始狀態,影響到統計結果的客觀性。比如,1956年1月28日國務院全體會議第23次會議通過了《關于公布〈漢字簡化方案〉的決議》,1956年1月31日《人民日報》全文發表了國務院的《關于公布〈漢字簡化方案〉的決議》和《漢字簡化方案》
《中國語言生活狀況報告(2005)》中的《報紙、廣播電視、網絡用字總表》的統計單位近似于周有光的字形,繁簡字、異體字、新舊字形均作為不同的統計單位進行統計。表中收錄繁體字361個(15),異體字193個(16),舊字形47個(17)。統計單位的不明確、不統一,不僅影響到字頻統計的科學性,也不利于統計結果的正確、有效使用。
四、漢字字頻統計的改進
根據上述情況分析,我們認為必須加強字頻統計的理論研究,完善統計原則,改進統計方法,提高字頻統計的客觀性和科學性。
從規定的角度可以采納周有光先生的界定,把字的單位劃分為字種、字形兩級。字的單位確定了,字頻統計則可以根據不同的統計目的規定統計單位,可以以字型為統計單位統計型頻,也可以以字樣為單位統計樣頻,可以以字式為單位統計式頻,可以以字種為單位統計種頻。這樣,不僅統計單位明確、清晰,而且每次特定的統計,統計單位統一、等質,便于統計數據的使用,以及不同統計數據的比較,使得字頻統計的科學性得到保障。
核心期刊發表須知:《出版科學》是經國家新聞出版總署批準,由湖北省新聞出版局主管、湖北省編輯學會主辦、武漢大學信息管理學院承辦的一份面向全國的出版專業學術期刊。