用英文字符表示汉字的可行性研究 有没有一种方案,以最少的码位准确表示汉字? 简单分析 a - z 排列组合: 1 位,26 个码位 2 位,26*26=676 个码位 3 位,26*26*26=17576 个码位 如果表示《通用规范汉字表》8105个汉字,最少需要 3 个码位 即使是表示一级字表的 3500 个常用汉字,也需要至少 3 个码位 分析:小于 3 位是不可能实现准确表示汉字的 我们的实现方式? 采用动态编码长度 实现,按照 字频 将最常用的汉字以最少码位表示 如:汉字最常用的 "的" 字,就没必要非得使用 3 位编码表示,仅使用 1 位编码表示即可。 《一、二级简码》 (一)1 位编码(表示最常用字) 理论码位:26 个 实际使用:26 个码位(对应 26 个英文字符) 利用率:100% (二)2 位编码(表示次常用字) 理论码位:26*26=676 个 实际使用(音节):406 个码位(对应 406 个汉字音节) 利用率:60.06%(剩余码位由于不与汉语语音对应,不容易记忆,所以放在扩展表使用) 《三级简码》 3 位编码形式 理论码位:26*26*26=17576 个 实际使用:4797+1847+21=6665 个 利用率:37.92%(在有规律且容易记忆的情况下已经是较高的利用率了) # 详细规则可参考:《构字规则》 为什么这样设计? 理论依据:汉字使用的覆盖率 从汉字使用情况来看,高频字数量稳定,2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595。 达到90%的字种数分别是943、958、964。 达到99%的字种数分别是2314、2377、2394。
双拼、字频、声调分组、借音位、符号位
本站提供汉字编码在线查询功能 点击查字
国内访问:XinHanzi.erhe.cn 境外访问:XinHanzi.cn
技术支持:XinHanzi.com