跳转到内容

英文维基 | 中文维基 | 日文维基 | 草榴社区

中华人民共和国国家标准汉字编码字符集列表

维基百科,自由的百科全书

本列表列举与信息交换用汉字编码字符集相关的中华人民共和国国家标准

常见国家标准代码列表

[编辑]
  • GB 2312—80《信息交换用汉字编码字符集 基本集》(又称 GB 或 GB0)
  • GB 13000—2010《信息技术 通用多八位编码字符集(UCS)》(相当于 ISO/IEC 10646:2003 中文版)
    • 已作废之旧版:GB 13000.1—93《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》(相当于 ISO 10646-1:1993 中文版)
  • GB 18030—2022《信息技术 中文编码字符集》,依照UCS定义。GB 18030可以表示代理对(surrogate pair)之外的所有Unicode码位,因此可算为一种“统一码变换格式”Unicode Transformation Format)。
    • 已作废之旧版:GB 18030—2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》和GB 18030—2005

其他中华人民共和国发布有关汉字标准代码列表:

  • GB 12345—90《信息交换用汉字编码字符集 辅助集》(又称 GB1)
  • GB/T 7589—87《信息交换用汉字编码字符集 第二辅助集》(又称 GB2)
  • GB 13131—91《信息交换用汉字编码字符集 第三辅助集》(又称 GB3)
  • GB/T 7590—87《信息交换用汉字编码字符集 第四辅助集》(又称 GB4)
  • GB 13132—91《信息交换用汉字编码字符集 第五辅助集》(又称 GB5)
  • GB/T 16500—1998《信息交换用汉字编码字符集 第七辅助集》
  • SJ/T 11239—2001《信息技术 信息交换用汉字编码字符集 第八辅助集》
  • GB 8565.2—88《信息处理文本通信用编码字符集 第二部分:图形字符集》

由于 GB 2312—80 只收录了6,763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以发布了以上的辅助集。

其中,GB 12345—90辅助集是GB 2312—80基本集的繁体字版本;GB 13131—91是GB/T 7589—87的繁体字版本;GB 13132—91是GB/T 7590—87的繁体字版本。而GB/T 16500—1998是繁体字版本,并无对应的简体字版本。

第二辅助集及第四辅助集没有收入通用字符集ISO/IEC 10646 标准[1]

中华人民共和国国家标准总局于2000年推出强制性的GB 18030—2000标准。于2001年8月31日后发布或出厂的产品,必须符合GB 18030—2000的相关要求。这个标准的最新版本是GB 18030—2005,它的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(0x8139EE39—0x82358738)部分为强制性。

相关标准列表(按首次出版时间排列)

[编辑]
标准号 名称 别名 ISO 10646 字源代号[2] 汉字数 备注
GB 2312—80 信息交换用汉字编码字符集 基本集 GB G0 6,763 GB 6345.1—86 等字模集有附录对 GB 2312—80 之修订,但 GB 2312 本身一直未有更新,详见 GB 2312 条目。
GB/T 7589—87 信息交换用汉字编码字符集 第二辅助集 GB2   7,237 向 ISO 10646 提交时使用繁体字版本。
GB/T 7590—87 信息交换用汉字编码字符集 第四辅助集 GB4   7,039 向 ISO 10646 提交时使用繁体字版本。
  现代汉语通用字表   G7 7,000
GB 8565.2—88 信息处理文本通信用编码字符集 第二部分:图形字符集   G8 636 主要用于电讯;GB2汉字520个、GB4汉字92个、来自《第一批异体字整理表》之异体字23个及“啰”字。此字符集补充了 GB 2312,使之能包括整个《现代汉语通用字表》。
GB 12052—89 信息交换用朝鲜文字编码字符集   GK  
GB 12345—90 信息交换用汉字编码字符集 第一辅助集 GB1 G1 6,866 GB 2312 繁体版,增补103字。
GB 13131—91 信息交换用汉字编码字符集 第三辅助集 GB3 G3 7,237 GB/T 7589 繁体版(ISO 文件称为“非简化形式(unsimplified form)”)
GB 13132—91 信息交换用汉字编码字符集 第五辅助集 GB5 G5 7,039 GB/T 7590 繁体版(ISO 文件称为“非简化形式(unsimplified form)”)
ISO-IR-165 通讯用中文多位元组字符集     8,464[3] 集合 GB 2312—80(包括 GB 6345.1—86 新增之字符及调整)及 GB 8565.2—88。
GB 13000—2010 信息技术 通用多八位编码字符集(UCS)第一部分     70,207 替代 GB 13000.1—93《信息技术 通用多八位编码字符集(UCS)第一部分》,20,914字,旧版已作废。

另有302个兼容汉字(当中十二个:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有独立形音义,统一码联盟建议不要视之为兼容汉字)。旧版已作废。
GBK 汉字扩展内码规范[4]     21,003 除了来自 ISO 10646-1 / GB 13000.1 之20,902字,另有 ISO 10646-1 / GB 13000.1 中21个兼容汉字(包括上述12个有独立形音义兼容字),以方便和 Big5CNS11643JISIBM 文件双向转换[4]、未收入 ISO 10646 的《简化字总表》汉字52个、《康熙字典》及《辞海汉字部件28个;后80字暂时对应 Unicode 编码之私人使用区(造字),新版 Unicode 已全部收纳。Microsoft Code Page 936 收入21个兼容汉字[5][6],未收后80字。
GB/T 15564—1995 图文电视广播用汉字编码字符集 香港子集   GH 111 所有字皆来自 GB 13000.1。
GB/T 16500—1998 信息交换用汉字编码字符集 第七辅助集   GE 3,778 其他 GB 未收录之 GB 13000.1 汉字。
GB 18030—2000 信息技术 中文编码字符集   G9 27,533 CJK、CJK 扩展A区、21 个兼容区汉字、当年 ISO/IEC 10646-1:2000 / Unicode 3.0 仍未编码的 28 个收录在 FE 私有造字区段的汉字和汉字部件。

定义了除代理对之外所有Unicode基本平面字符的四字节表示方式。

SJ/T 11239—2001 信息技术 信息交换用汉字编码字符集 第八辅助集     2,501 收录GB 2312、GB 7589和GB 7590未收入的汉字,主要用于地名。
GB 18030—2005 信息技术 中文编码字符集     70,244 CJK、CJK 扩展A区、CJK 扩展B区、21 个兼容区汉字、28 个收录在 FE 区段的汉字和汉字部件。替代 GB 18030—2000。

定义了除代理对之外所有Unicode字符的四字节表示方式。

GB 18030—2022 信息技术 中文编码字符集     87,887 替代 GB 18030—2005。

参看

[编辑]

注释

[编辑]
  1. ^ ISO 10646 收录的是其非简化形式(unsimplified forms),见中日韩统一表意文字#字源
  2. ^ 存档副本 (PDF). [2018-03-23]. (原始内容存档 (PDF)于2018-03-23). 
  3. ^ 一说8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
  4. ^ 4.0 4.1 简体中文版 Windows 95 “GBK 内码输入法”帮助文件,1995年
  5. ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx[永久失效链接]
  6. ^ 存档副本. [2010-01-04]. (原始内容存档于2008-03-07). 

外部链接

[编辑]