编码释疑
时间:2023-08-09 23:37:00
目录
1. ASCII编码
2. ANSI编码
3.ISO/IEC 8859
4. Unicode
5. UTF-8编码
6. UTF-16编码
7. UTF-32编码
8. GB2312编码
9. GBK编码
10. BG18030
11. BIG5编码
12. URL编码
13. escape编码
14. BASE64编码
15. 其他小变种编码
16. 常见的散列、校验和加密算法
附记:
A. 字节顺序标记BOM
B. BIG5码冲码问题
C. 内码和交换码
D. 专门下载链接的编码规则
参考:
1. ASCII编码
【应用场景】
ASCII为"美国信息交换标准代码"缩写九个字,ASCII任何计算机都能识别出文件是一种简单的无格式文本文件,Windows可以阅读和创建记事本和任何文本处理程序ASCII文件。ASCII文件通常有扩展名称.TXT(例如README.TXT)
源/目的字符集
英文字符和英文字符和英文符号。
不能说中文符号和中文符号
编码规则
ASCII代码使用指定的7位或8位二进制数组合来表示128或256个可能的字符。ASCII码也叫基础ASCII代码,使用7位二进制数来表示所有的大写和小写字母,0到9,标点符号,以及在美国英语中使用的特殊控制字符。
后128个称为扩展ASCII码,目前很多基础x86系统支持扩展(或高)ASCII。扩展ASCII 允许每个字符的第8码 用于确定附加位置的128 特殊符号字符、外语字母和图形符号。
在法语、希伯来语、俄语编码中,对后128个扩展码的解释并不统一。
ASCII码表如下:
2进制 | 10进制 | 16进制 | 缩写/字符 | 解释 | |
0000 0000 | 0 | 0 | NUL(null) | 空字符 | |
0000 0001 | 1 | 1 | SOH(start of headline) | 标题开始 | |
0000 0010 | 2 | 2 | STX (start of text) | 正文开始 | |
0000 0011 | 3 | 3 | ETX (end of text) | 正文结束 | |
0000 0100 | 4 | 4 | EOT (end of transmission) | 传输结束 | |
0000 0101 | 5 | 5 | ENQ (enquiry) | 请求 | |
0000 0110 | 6 | 6 | ACK (acknowledge) | 收到通知 | |
0000 0111 | 7 | 7 | BEL (bell) | 响铃 | |
0000 1000 | 8 | 8 | BS (backspace) | 退格 | |
0000 1001 | 9 | 9 | HT (horizontal tab) | 水平制表符 | |
0000 1010 | 10 | 0A | LF (NL line feed, new line) | 换行键 | |
0000 1011 | 11 | 0B | VT (vertical tab) | 垂直制表符 | |
0000 1100 | 12 | 0C | FF (NP form feed, new page) | 换页键 | |
0000 1101 | 13 | 0D | CR (carriage return) | 回车键 | |
0000 1110 | 14 | 0E | SO (shift out) | 不用切换 | |
0000 1111 | 15 | 0F | SI (shift in) | 启用切换 | |
0001 0000 | 16 | 10 | DLE (data link escape) | 数据链路转义 | |
0001 0001 | 17 | 11 | DC1 (device control 1) | 设备控制1 | |
0001 0010 | 18 | 12 | DC2 (device control 2) | 设备控制2 | |
0001 0011 | 19 | 13 | DC3 (device control 3) | 设备控制3 | |
0001 0100 | 20 | 14 | DC4 (device control 4) | 设备控制4 | |
0001 0101 | 21 | 15 | NAK (negative acknowledge) | 拒绝接收 | |
0001 0110 | 22 | 16 | SYN (synchronous idle) | 同步空闲 | |
0001 0111 | 23 | 17 | ETB (end of trans. block) | 传输块结束 | |
0001 1000 | 24 | 18 | CAN (cancel) | 取消 | |
0001 1001 | 25 | 19 | EM (end of medium) | 介质中断 | |
0001 1010 | 26 | 1A | SUB (substitute) | 替补 | |
0001 1011 | 27 | 1B | ESC (escape) | 换码(溢出) | |
0001 1100 | 28 | 1C | FS (file separator) | 文件分割符 | |
0001 1101 | 29 | 1D | GS (group separator) | 分组符 | |
0001 1110 | 30 | 1E | RS (record separator) | 记录分离符 | |
0001 1111 | 31 | 1F | US (unit separator) | 单元分隔符 | |
0010 0000 | 32 | 20 | (space) | 空格 | |
0010 0001 | 33 | 21 | ! | | |
0010 0010 | 34 | 22 | " | | |
0010 0011 | 35 | 23 | # | | |
0010 0100 | 36 | 24 | $ | | |
0010 0101 | 37 | 25 | % | | |
0010 0110 | 38 | 26 | & | | |
0010 0111 | 39 | 27 | ' | | |
0010 1000 | 40 | 28 | ( | | |
0010 1001 | 41 | 29 | ) | | |
0010 1010 | 42 | 2A | * | | |
0010 1011 | 43 | 2B | + | | |
0010 1100 | 44 | 2C | , | | |
0010 1101 | 45 | 2D | - | | |
0010 1110 | 46 | 2E | . | | |
101111 | 47 | 2F | / | | |
110000 | 48 | 30 | 0 | | |
110001 | 49 | 31 | 1 | | |
110010 | 50 | 32 | 2 | | |
110011 | 51 | 33 | 3 | | |
110100 | 52 | 34 | 4 | | |
110101 | 53 | 35 | 5 | | |
110110 | 54 | 36 | 6 | | |
110111 | 55 | 37 | 7 | | |
111000 | 56 | 38 | 8 | | |
111001 | 57 | 39 | 9 | | |
111010 | 58 | 3A | : | | |
111011 | 59 | 3B | ; | | |
111100 | 60 | 3C | < | | |
111101 | 61 | 3D | = | | |
111110 | 62 | 3E | > | | |
111111 | 63 | 3F | ? | | |
1000000 | 64 | 40 | @ | | |
1000001 | 65 | 41 | A | | |
1000010 | 66 | 42 | B | | |
1000011 | 67 | 43 | C | | |
1000100 | 68 | 44 | D | | |
1000101 | 69 | 45 | E | | |
1000110 | 70 | 46 | F | | |
1000111 | 71 | 47 | G | | |
1001000 | 72 | 48 | H | | |
1001001 | 73 | 49 | I | | |
1001010 | 74 | 4A | J | | |
1001011 | 75 | 4B | K | | |
1001100 | 76 | 4C | L | | |
1001101 | 77 | 4D | M | | |
1001110 | 78 | 4E | N | | |
1001111 | 79 | 4F | O | | |
1010000 | 80 | 50 | P | | |
1010001 | 81 | 51 | Q | | |
1010010 | 82 | 52 | R | | |
1010011 | 83 | 53 | S | | |
1010100 | 84 | 54 | T | | |
1010101 | 85 | 55 | U | | |
1010110 | 86 | 56 | V | | |
1010111 | 87 | 57 | W | | |
1011000 | 88 | 58 | X | | |
1011001 | 89 | 59 | Y | | |
1011010 | 90 | 5A | Z | | |
1011011 | 91 | 5B | [ | | |
1011100 | 92 | 5C | \ | | |
1011101 | 93 | 5D | ] | | |
1011110 | 94 | 5E | ^ | | |
1011111 | 95 | 5F | _ | | |
1100000 | 96 | 60 | ` | | |
1100001 | 97 | 61 | a | | |
1100010 | 98 | 62 | b | | |
1100011 | 99 | 63 | c | | |
1100100 | 100 | 64 | d | | |
1100101 | 101 | 65 | e | | |
1100110 | 102 | 66 | f | | |
1100111 | 103 | 67 | g | | |
1101000 | 104 | 68 | h | | |
1101001 | 105 | 69 | i | | |
1101010 | 106 | 6A | j | | |
1101011 | 107 | 6B | k | | |
1101100 | 108 | 6C | l | | |
1101101 | 109 | 6D | m | | |
1101110 | 110 | 6E | n | | |
1101111 | 111 | 6F | o | | |
1110000 | 112 | 70 | p | | |
1110001 | 113 | 71 | q | | |
1110010 | 114 | 72 | r | | |
1110011 | 115 | 73 | s | | |
1110100 | 116 | 74 | t | | |
1110101 | 117 | 75 | u | | |
1110110 | 118 | 76 | v | | |
1110111 | 119 | 77 | w | | |
1111000 | 120 | 78 | x | | |
1111001 | 121 | 79 | y | | |
1111010 | 122 | 7A | z | | |
1111011 | 123 | 7B | { | | |
1111100 | 124 | 7C | | | | |
1111101 | 125 | 7D | } | | |
1111110 | 126 | 7E | ~ | | |
1111111 | 127 | 7F | DEL (delete) | 删除 |
2. ANSI编码
【应用场景】
使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。 不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。 当然对于ANSI编码而言,0x00~0x7F之间的字符,依旧是1个字节代表1个字符。Windows下新建的记事本文件,默认就是以这种方式来保存的。
【源/目的字符集】
英文字符和英文符号使用1个字节表示(其最高位为0)
中文和中文符号,日文、韩文等使用2个字节表示(2个字节的最高位都为1)
【编码规则】
参见具体编码,如GB2312
EUC-JP用来储存日本JISX0208(旧称JIS C 6226)及JIS X 0212字集的字符。但是,日语文字较多使用ISO-2022-JP或Shift_JIS的方法来表示。
EUC-KR用来储存韩国KSX1001字集(旧称KSC5601)的字符。此规格由KSX2901(旧称KS C 5861)定义。
3. ISO/IEC 8859
【应用场景】
ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。ASCII收录了空格及94个“可印刷字符”,足以给英语使用。但是,其他使用拉丁字母的语言(主要是欧洲国家的语言),都有一定数量的附加符号字母,故可以使用ASCII及控制字符以外的区域来储存及表示。除了使用拉丁字母的语言外,使用西里尔字母的东欧语言、希腊语、泰语、现代阿拉伯语、希伯来语等,都可以使用这个形式来储存及表示。
【源/目的字符集】
英文字符和拉丁字符等使用1个字节表示
【编码规则】
ISO/IEC 8859-1 (Latin-1) - 西欧语言
ISO/IEC 8859-2 (Latin-2) - 中欧语言
ISO/IEC 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。
ISO/IEC 8859-4 (Latin-4) - 北欧语言
ISO/IEC 8859-5 (Cyrillic) - 斯拉夫语言
ISO/IEC 8859-6 (Arabic) - 阿拉伯语
ISO/IEC 8859-7 (Greek) - 希腊语
ISO/IEC 8859-8 (Hebrew) - 希伯来语(视觉顺序)
ISO 8859-8-I - 希伯来语(逻辑顺序)
ISO/IEC 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰岛语字母换走,加入土耳其语字母。
ISO/IEC 8859-10 (Latin-6 或 Nordic) - 北日耳曼语支,用来代替Latin-4。
ISO/IEC 8859-11 (Thai) - 泰语,从泰国的 TIS620 标准字集演化而来。
ISO/IEC 8859-13 (Latin-7 或 Baltic Rim) - 波罗的语族
ISO/IEC 8859-14 (Latin-8 或 Celtic) - 凯尔特语族
ISO/IEC 8859-15 (Latin-9) - 西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重音字母,以及欧元(?符号。
ISO/IEC 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用,并加入欧元符号。
4. Unicode
【应用场景】
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。
【源/目的字符集】
用数字0-0x10FFFF来映射所有国家的字符
Latin-1是Unicode的子集
【编码规则】
Unicode用数字0-0x10FFFF来映射所有国家的字符,最多可以容纳1114112个字符,或者说有1114112个码位。
国际标准 ISO 10646 定义了 通用字符集 (Universal Character Set,UCS). UCS 定义了一个 31 位的字符集(4个字节,最高字节的最高位为0),是所有其他字符集标准的一个超集。 UCS 不仅给每个字符分配一个代码,而且赋予了一个正式的名字. 表示一个 UCS 或 Unicode 值的十六进制数,通常在前面加上 "U+",就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F 与 US-ASCⅡ(ISO 646) 是一致的。
UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行 (row),每行有256个码位(cell)。其中,group 0的平面0被称作基本多文种平面BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。从另一个角度,BMP,或称第零平面(Plane 0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。
Unicode的范围全部位于group=0的组,Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面15、平面16。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。
Unicode的实现形式可以为UTF-8等,比如:在Unicode中:汉字“字”对应的数字是23383。我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。这些可以参见具体的编码。
5. UTF-8编码
【应用场景】
UTF-8是UNICODE的一种变长字符编码又称万国码,现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如日文,韩文)
Unicode是一种编码方式,它规定了每个字符对应的编码数字(4个字节),但是没有规定具体的存储方式。
而UTF-8则是最重要的实现方式之一,它使用了变长的方式来存储,从而相比于每个字符都固定存储4个字节会大大节省存储空间。
【源/目的字符集】
(英文和英文符号)实际表示ASCII字符的UNICODE字符,将会编码成1个字节,并且UTF-8表示与ASCII字符表示是一样的。
(中文)如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。具体如下:
占2个字节的:〇
占3个字节的:基本等同于GBK,含21000多个汉字
占4个字节的:中日韩超大字符集里面的汉字,有5万多个
ASCII码是UTF-8的子集。
【编码规则】
UTF-8 是字节顺序无关的。它的字节顺序在所有系统中都是一样的,因此它实际上并不需要BOM(见附录)。
最高位为0,表示该字节就是1个独立的字符,所以和ASCII码是兼容的。
最为高位为1,表示它是多个字节组成的字符中的一个字节。该字符总共有多少个字节,第1个字节就有多少个1,然后跟个0;第2个和之后的字节均为10开头。参见下面的转换表的举例。
UTF-8转换表如下:
UNICODE | bit数 | UTF-8 | byte数 | 备注 |
0000 0000 ~ 0000 007F |
0~7 | 0XXX XXXX | 1 | |
0000 0080 ~ 0000 07FF |
8~11 | 110X XXXX 10XX XXXX |
2 | |
0000 0800 ~ 0000 FFFF |
12~16 | 1110 XXXX 10XX XXXX 10XX XXXX |
3 | 基本定义范围:0~FFFF |
0001 0000 ~ 001F FFFF |
17~21 | 1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX |
4 | Unicode6.1定义范围:0~10 FFFF |
0020 0000 ~ 03FF FFFF |
22~26 | 1111 10XX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX |
5 | |
0400 0000 ~ 7FFF FFFF |
27~31 | 1111 110X 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX |
6 | |
6. UTF-16编码
【应用场景】
UTF-16是Unicode的其中一个使用方式。UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。
【源/目的字符集】
英文,常用汉字均编码为2个字节;不常用汉字被编码为4个字节
与ASCII码不兼容;UCS-2是UTF-16的子集
【编码规则】
在Unicode的BMP定义的字符(无论是拉丁字母、汉字或其他文字或符号),一律使用2字节储存。而在辅助平面定义的字符,会以代理对(surrogate pair)的形式,以两个2字节的值来储存。所以,UTF-16可看成是UCS-2的父集。
7. UTF-32编码
【应用场景】
UTF-32对每个字符都使用4字节,使得UTF-32通常会是其它编码的二到四倍,它并不如其它Unicode编码使用得广泛。
【源/目的字符集】
所有字符(包括英文,汉字等)均编码为4个字节
与ASCII码不兼容;和UCS-4等同
【编码规则】
原本ISO 10646标准定义了一个32位元的编码形式,称作UCS-4,使用通用字符集(UCS)的每一个字符,会在0到十六进制的7FFFFFFF这样的字码空间中,被表示成一个的32位元的码值。
UCS-4足以用来表示所有的Unicode的字码空间,其最大的码位为十六进制的10FFFF,所以其空间约有百万个码位。有些人认为保留如此大的字码空间却只为了对应这很小的码集是浪费的。所以一个新的编码UTF-32被提出来了。UTF-32 是一个 UCS-4 的子集,使用32-位元的码值,只在0到10FFFF的字码空间。
UTF-32 原本是 UCS-4 的子集,但JTC1/SC2/WG2声明,所有未来对字符的指定都将会限制在BMP及其14个补充平面,并移除先前在 E0 到 FF 平面的 60 到 7F 群的私用空间。
于是就现状而言,除了 UTF-32 标准包含额外的 Unicode 意涵,UCS-4 和 UTF-32 大体是相同的。
8. GB2312编码
【应用场景】
GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。EUC-CN是GB2312最常用的表示方法。浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法。
【源/目的字符集】
每个英文或英文符号使用1个字节表示(最高位为0)
每个汉字使用2个字节表示(2个字节的最高位都为1)
ASCII码是GB2312码的子集
【编码规则】
GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。
每个汉字及符号以两个字节来表示,“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。
01-09区为特殊符号。
16-55区为一级汉字,按拼音排序。
56-87区为二级汉字,按部首/笔画排序。
码表参见:http://www.knowsky.com/resource/gb2312tbl.htm
9. GBK编码
【应用场景】
GBK是汉字编码标准之一,全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification) ,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。
【源/目的字符集】
每个英文或英文符号使用1个字节表示(最高位为0)
每个汉字使用2个字节表示(2个字节的最高位均为1)
GB2312码是GBK码的子集
【编码规则】
GBK 采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。
全部编码分为三大部分:
1. 汉字区。包括:
a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
b. GB 13000.1 扩充汉字区。包括:
(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
2. 图形符号区。包括:
a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。
3. 用户自定义区:分为(1)(2)(3)三个小区。
(1) AAA1-AFFE,码位 564 个。
(2) F8A1-FEFE,码位 658 个。
(3) A140-A7A0,码位 672 个。
第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
注:CJK指中日韩统一表意文字,目的是要把分别来自中文、日文、韩文、越文中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。CJK 是中文(Chinese)、日文(Japanese)、韩文(Korean)三国文字的缩写。顾名思义,它能够支持这三种文字。实际上,CJK 能够支持在 LaTeX 中使用包括中文、日文、韩文在内的多种亚洲双字节文字。
10. BG18030
【应用场景】
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。
【源/目的字符集】
每个英文或英文符号使用1个字节表示
每个汉字使用2个字节表示
GBK码是GB18030-2000的子集
GB18030-2000是GB18030-2005的子集
【编码规则】
目前,GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。2000年发布的GB18030-2000,全名是《信息技术 汉字编码字符集 基本集的扩充》。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。GB18030-2000是全文强制性标准,市场上销售的产品必须符合。2005年发布的GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。
BG18030标准采用单字节、双字节和四字节三种方式对字符编码。
如下表所示,GB18030-2000收录了27533个汉字,双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字:
类别 | 码位范围 | 码位数 | 字符数 | 字符类型 |
双字节部分 | 第一字节 0xB0-0xF7 | 6768 | 6763 | 汉字 |
第二字节 0xA1-0xFE | ||||
第一字节0x81-0xA0 | 6080 | 6080 | 汉字 | |
第二字节0x40-0xFE | ||||
第一字节0xAA-0xFE | 8160 | 8160 | 汉字 | |
第二字节0x40-0xA0 | ||||
四字节部分 | 第一字节0x81-0xFE | 6530 | 6530 | CJK统一汉字扩充A |
第二字节0x30-0x39 | ||||
第三字节0x81-0xFE | ||||
第四字节0x30-0x39 |
如下表所示,GB18030-2005收录了70244个汉字:
类别 | 码位范围 | 码位数 | 字符数 | 字符类型 |
双字节部分 | 第一字节 0xB0-0xF7 | 6768 | 6763 | 汉字 |
第二字节 0xA1-0xFE | ||||
第一字节0x81-0xA0 | 6080 | 6080 | 汉字 | |
第二字节0x40-0xFE | ||||
第一字节0xAA-0xFE | 8160 | 8160 | 汉字 | |
第二字节0x40-0xA0 | ||||
四字节部分 | 第一字节0x81-0x82 | 6530 | 6530 | CJK统一汉字扩充A |
第二字节0x30-0x39 | ||||
第三字节0x81-0xFE | ||||
第四字节0x30-0x39 | ||||
第一字节0x95-0x98 | 42711 | 42711 | CJK统一汉字扩充B | |
第二字节0x30-0x39 | ||||
第三字节0x81-0xFE | ||||
第四字节0x30-0x39 |
11. BIG5编码
【应用场景】
BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”,Big5虽普及于中国的台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准(de facto standard)。2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。
由于各厂商及政府推出的Big5延伸,彼此互不兼容,造成乱码问题。鉴于Unicode能正确地处理七万多个汉字,近年的操作系统和应用程式(如苹果电脑 Mac OS X 和以 Cocoa API 撰写之程式、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏 BIG-5览器、Internet Explorer浏览器、Java 语言等等),已改用Unicode编码。
【源/目的字符集】
英文和繁体汉字均被表示为2个字节
与ASCII码不兼容,也与GB2312码不兼容
【编码规则】
大五码普遍被认为包含13,053字,但在计算0xA259-0xA261的度量衡单位用字 (兙兛兞兝兡兣嗧瓩糎) ,再减去重收了两次的“兀”(0xC94A)和“嗀”(0xDDFC)后,应为13,060字。
Big5属中文内码(中文码分为中文内码及中文交换码两类)。
Big5码是一套双字节字符集,使用了双八码储存方法,以两个字节来 BIG-5安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:
0x8140-0xA0FE 保留给使用者自定义字符(造字区)
0xA140-0xA3BF 标点符号、希腊字母及特殊符号,包括在0xA259-0xA261,安放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎。
0xA3C0-0xA3FE 保留。此区没有开放作造字区用。
0xA440-0xC67E 常用汉字,先按笔划再按部首排序。
0xC6A1-0xC8FE 保留给使用者自定义字符(造字区)
0xC940-0xF9D5 次常用汉字,亦是先按笔划再按部首排序。
0xF9D6-0xFEFE 保留给使用者自定义字符(造字区)
12. URL编码
【应用场景】
url编码是一种浏览器用来打包表单输入的格式,一般常见于浏览器地址栏目中。
【源/目的字符集】
源字符集可以为任何可见或者不可见(控制字符,如回车,退格)的中英文字符和符号,主要应用于以