內碼,喺資訊處理,特別係喺中日韓書寫系統嘅資訊處理,係指某套電腦系統同應用程式實際用嘅編碼[1]:30,而今通常係某種形式嘅統一碼;統一碼喺微軟視窗內部用 UTF-16LE形式,而喺類Unix系統(包括MacOS)就係UTF-8形式[2]。內碼亦指某種內碼之下某字符嘅號碼。

概念上,內碼同交換碼相對[1]:29,但實際上,除咗喺例如圖書館學或者HZ碼等一啲個別領域之外,喺中文,就算係統一碼未廣泛採納之前,呢兩樣概念通常都重叠,即係可以話除咗少數例外情況之外,中文基本上從來都無真正嘅交換碼,而係就算跨系統都係用內碼,只係傳出去或者收到之後會轉內碼。相反,日文可以話以前ISO 2022係交換碼,即係話就算系統內部係用EUCShift-JIS,以前好多時都係轉咗做ISO 2022形式先傳出去或者寫入檔案

統一碼未廣泛採納之前,唔同書寫系統嘅內碼並唔統一,而係通常各國有自己嘅內碼,中文好多時用嘅都係雙位元組編碼,漢字部分固定用兩位元組,英文部分就固定用一位元組

用某種內碼嘅檔案拎去用第種內碼嘅系統度開嚟睇,結果就會顯示錯誤,呢種原因導致嘅顯示錯誤叫亂碼

未有五大碼之前,正體中文亦都曾經出現過直接用倉頡碼做內碼嘅情況,喺呢種系統,中文內碼視乎倉頡點拆字,位元組數量會介乎兩至六位元組不等[3]:19,有啲似而今UTF-8嘅情況。

內碼輸入法

編輯

直接用字符內碼打字嘅輸入法內碼輸入法。例如,喺用五大碼嘅系統,「字」係A672,但係喺用GB碼嘅系統,D7D6(十進制(55,54)嘅EUC形式)先係「字」。

喺用統一碼嘅系統,內碼通常指統一碼標準入面嘅編號,即係U+後面嘅十六進號碼,或者號碼嘅十進制形式。例如喺Linux,用X11跟機嘅內碼輸入法,打5B57就會打到「字」(U+5B57)。

  1. 1.0 1.1 魏令芳、江敏妮 (1997年7月22號)。字字集字碼簡介 (PDF) (臺灣中文)。喺2023年4月3號搵到
  2. "Why does Windows use UTF-16LE?" (英文). 2022年12月5號. 喺2023年4月2號搵到.
  3. 張壽萱; 徐建毅、張建生 (1984年)。文信息的計算機處理 (中國中文)。上海:宇航出版社。