
ascii编码和gb2312编码和和UNICODE编码和utf-8编码的关系
发布时间:2009-12-07 20:56:21 文章来源:jiaxingweb 浏览:[ ] 评论:[ ]
开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就可以用不同字节来存储英语的文字了。大家看到这样,都感觉很好,于是大家都把这个方案叫做 ANSI 的"Ascii"编码(American Standard Code for Information Interchange,美国信息互换标准代码)。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。
后来,世界各地的都开始使用计算机,但是很多国家用的不是英文,他们的字母里有许多是ASCII里没有的,为了可以在计算机保存他们的文字,他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"。
等中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民,我们不客气地把那些127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
于是就把这种汉字方案叫做 "GB2312"。GB2312 是对 ASCII 的中文扩展。
后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了GB18030。从此之后,中华民族的文化就可以在计算机时代中传承了。
就在这个时候,各个国家都像中国这样搞出一套自己的编码标准,结果互相之间谁也不懂谁的编码,谁也不支持别人的编码,
正在这时,一个叫 ISO(国际标谁化组织)的国际组织决定着手解决这个问题。他们采用的方法很简单:废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!他们打算叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE"。
那么既然统一了编码,如何兼容原先各国的文字编码呢?
这个时候就需要codepage了。
什么是codepage?codepage就是各国的文字编码和Unicode之间的映射表。
比如简体中文和Unicode的映射表就是CP936,点这里查看官方的映射表。
以下是几个常用的codepage,相应的修改上面的地址的数字即可。
codepage=936 简体中文GBK
codepage=950 繁体中文BIG5
codepage=437 美国/加拿大英语
codepage=932 日文
codepage=949 韩文
codepage=866 俄文
codepage=65001 unicode UTF-8
最后一个65001,据个人理解,应该只是一个虚拟的映射表,实际只是一个算法而已。
UTF是“UCS Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。
GB2312 编码码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,简单的来说它就是一种汉字的编码方式。它只能表示中文和英文还有特殊字符,不能表示如日语,韩语等其它语言。
utf-8 是国际性的可变长度编码。对 Unicode 的可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,且其编码中的第一个字节仍与 ASCII 相容。它可以表示世界上任何一种语言。
ansii编码不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。
ASCII(American Standard Code for Information Interchange,美国资讯互换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单位元组编码系统, 并等同于国际标准ISO/IEC 646。
ASCII码:美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。
- 虚拟主机速度测试方法
- photoshop制作漂亮的3D文字
- 浅谈如何量化用户体验
- 文件读写类StreamRead和Ste...
- SQLServer改变表的所有者
- 如何建设外贸网站 外贸网站要怎么建设
- ASP.NET网络编程中经常用到的27...
- FlashLoading(等待)的制作
- 什么是URL转发?
- 什么是SEO,SEO的现状
- 怎样增加网站的访问量,流量购买是什么意...
- Lc.exe 已退出,代码 -1
- 关于asp.net中c#语言所实现的邮...
- 中华人民共和国各省市通信管理局电话
- asp.net网站制作中的Reques...
- 网站建设与网站优化怎样结合起来建站
- 中小企业网站建设质量14招
- 网络营销的六种境界
- 网络营销效果不佳的五个主要因素
- 判断垃圾网站的25个标准
