新汉字 X Hm ziz

1) 简介

用英文字符表示汉字的可行性研究

有没有一种方案,以最少的码位准确表示汉字?

简单分析 a - z 排列组合:

1 位,26 个码位

2 位,26*26=676 个码位

3 位,26*26*26=17576 个码位

如果表示《通用规范汉字表》8105个汉字,最少需要 3 个码位

即使是表示一级字表的 3500 个常用汉字,也需要至少 3 个码位

分析:小于 3 位是不可能实现准确表示汉字的

我们的实现方式?

采用动态编码长度 实现,按照 字频 将最常用的汉字以最少码位表示

如:汉字最常用的 "的" 字,就没必要非得使用 3 位编码表示,仅使用 1 位编码表示即可。

《一、二级简码》

(一)1 位编码(表示最常用字)

理论码位:26 个

实际使用:26 个码位(对应 26 个英文字符)

利用率:100%

(二)2 位编码(表示次常用字)

理论码位:26*26=676 个

实际使用(音节):406 个码位(对应 406 个汉字音节)

利用率:60.06%(剩余码位由于不与汉语语音对应,不容易记忆,所以放在扩展表使用)

《三级简码》

3 位编码形式

理论码位:26*26*26=17576 个

实际使用:4797+1847+21=6665 个

利用率:37.92%(在有规律且容易记忆的情况下已经是较高的利用率了)

# 详细规则可参考:《构字规则》

为什么这样设计?

理论依据:汉字使用的覆盖率

从汉字使用情况来看,高频字数量稳定,2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595。

达到90%的字种数分别是943、958、964。

达到99%的字种数分别是2314、2377、2394。

2) 核心思想

双拼、字频、声调分组、借音位、符号位

3) 表字范围

《通用规范汉字表》8105个汉字以及少量表外汉字

词条数:8110 查看字表

另有极少使用的表外字表示法可参考:《构字规则》《五级编码》部分

4) 编码查询工具

本站提供汉字编码在线查询功能 点击查字

5) 码表下载

码表为 txt 格式,点击打开后,右键保存即可

一级简码 / 二级简码 / 三级简码(简)

三级简码(全) / 三级简码(扩展) / {四级编码}

6) 国内镜像

国内访问:XinHanzi.erhe.cn

境外访问:XinHanzi.cn

技术支持:XinHanzi.com