关于javascript中的GB2312,UTF-8编码整理
July 5th, 2010 . by hacder 首先我们要了解下汉字的编码。众所周知,电脑中的每个字符归根结底都是由1和0组成,而电脑是由美国最先研制出来的,所以字符只局限于26个英文字母和若干种符号,每个字符都有对应的ASCII码,如果想要在电脑上表示一个中文字符,就必须先经过编码。任何编码都需要一个共同约定的规范,我们的前辈在汉字编码上所做出的成就是伟大的。以下是现今较为流行的汉字编码方式:
GBK:GBK编码是GB2312的升级版,GB2312是“中华人民共和国国家汉字信息交换用编码”,由国家标准总局发布,1981年5月1日起实施,通行于大陆,新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312最多能表示6763个汉字。但随着时间推移及汉字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字,只能编码6763个汉字就显得捉襟见肘了。所以了为了解决这些问题,以及配合UNICODE的实施,全国信息技术化技术委员会于1995年12 月1日发布GBK。GBK向下与GB2312 完全兼容,向上支持ISO 10646国际标准,起到了承上启下的作用。GBK 亦采用双字节表示,总体编码范围为8140-FEFE之间,共收录21886个汉字和图形符号,简繁体字融于同一库。
阅读全文——共6223字