网站建设毕业实践设计报告,做物流用哪个网站好,做一个企业网站设计,哪个网站可以哪些企业做哪些产品摘要我们在网上能看到各种文字和符号#xff0c;那么它们是怎么存储和转化的#xff0c;还有我们常常提及的UTF-8#xff0c;为什么都要设置这种编码方式#xff0c;这里就探讨下。字符集字符集#xff1a;就是各国文字、符号、数字的集合。常见的字符集有#xff1a;ASC…摘要我们在网上能看到各种文字和符号那么它们是怎么存储和转化的还有我们常常提及的UTF-8为什么都要设置这种编码方式这里就探讨下。字符集字符集就是各国文字、符号、数字的集合。常见的字符集有ASCII字符集、GBK字符集、GB18030字符集、Unicode字符集。ASCII字符集美国早期制定的字符集定义了一共128个字符。这些字符有大小写字母、0到9数字、空格符、退格、换行符、大于小于等字符。内容有限只能表示128个基本字符一个字符用一个字节(8bit)表示。GBK字符集向下兼容GB2312、其编码范围从8140至FEFE共23940个码位共收录了21003个汉字其中包含了部分日韩文字以及港台BIG-5中的所有汉字。一个字符一般用两个字节表示。GB18030字符集由国家定义的汉字编码字符标准该区间可以容纳161万个码位目前收录70244个汉字包含中文、日文、朝鲜语、和中国少数民族文字。内容有限只能表示中文相关汉字。需要占用1/2/4个字节兼容ASCII以及GB2312和GBK。也支持Unicode。ISO8859字符集由国际化标准组织和国际电工委员会定义的字符集定义了16个子字符集比如ISO8859-1字符集包含了西欧常用的文字、主要是德法两国文字ISO8859-2字符集包括了东欧常用文字...。虽然说有16个子字符集(其中15个定义了文字)但包含的语言文字有限仅仅包含了欧洲大部分国家的文字和泰国文字像中国、日本、韩国等国家的文字都没有包括进去。Unicode字符集由一个名为Unicode学术学会的机构制定的字符编码集该字符集支持所有国家的文字为每个字符都设定了二进制编码。编码字符集确定了能表示的文字符号集合但还需要确定文字和符号所对应的二进制码将文字和符号转化为二进制的过程叫做编码。像ASC11、GBK、GB18030、ISO8859-1等字符集的编码是唯一的它们既是字符集也是编码它们定义好了字符对应的唯一二进制码。但Unicode字符集的编码不是唯一的即它的同一个字符可以对应不同的二进制码。Unicode有UTF-8、UTF-16、UTF-32编码方案。其中UTF-8采用可变长字节(1到6个字节)表示文字符号而UTF-32采用固定长度(4个字节)表示文字符号UTF-16采用可变长字节(2个或4个字节)表示文字符号。UTF-8有6个字节长度的是因为后面的类型需要用额外两个标识位区分类型。看起来好像是UTF-16最省空间。但实际我们日常用的英文数字普通符号等用1个字节表示足够普通汉字用3个字节表示足够UTF-8就是这么表示的。而UTF-16无法兼容ASCII码却要用4个字节表示英文汉字也是需要4个字节表示。具体代码如下由上图可以看出数字用UTF-8只占1个字节而UTF-16要4个字节由上图可以看出英文字母用UTF-8只占1个字节而UTF-16要4个字节由上图可以看出汉字用UTF-8占3个字节而UTF-16要4个字节总结UTF-8相对于其它编码完胜。首先作为unicode字符集的一种编码方式它可以支持全世界的语言。紧接着相对于UTF-16和UTF-32表示日常的文字符号它还节省空间。所以它就是编码的最优选。