成都房地产网站建设,店面设计绘画,wordpress人才市场,端口映射 wordpressUnicode#xff08;中文#xff1a;万国码、国际码、统一码、单一码#xff09;是计算机科学领域里的一项业界标准。它对世界上大部分的文字进行了整理、编码。Unicode 使计算机呈现和处理文字变得简单。
现在的 Unicode 字符分为 17 组编排#xff0c;每组为一个平面中文万国码、国际码、统一码、单一码是计算机科学领域里的一项业界标准。它对世界上大部分的文字进行了整理、编码。Unicode 使计算机呈现和处理文字变得简单。
现在的 Unicode 字符分为 17 组编排每组为一个平面Plane而每个平面拥有 65536即 2 的 16 次方个码值Code Point。然而目前 Unicode 只用了少数平面我们用到的绝大多数字符都属于第 0 号平面即 BMP 平面。除了 BMP 平面之外其它的平面都被称为补充平面。 Unicode 标准也在不断发展和完善。目前使用 4 个字节的编码表示一个字符就可以表示出全世界所有的字符。nicode 相当于规定了字符对应的码值这个码值得编码成字节的形式去传输和存储。最常见的编码方式是 UTF-8。
Unicode 和 UTF-8 的转换规则 在正则中常用的有三种分别是按功能划分的 Unicode Categories有的也叫 Unicode Property比如标点符号数字符号按连续区间划分的 Unicode Blocks比如只是中日韩字符按书写系统划分的 Unicode Scripts比如汉语中文字符。 此文章为8月Day25学习笔记内容来源于极客时间《正则表达式入门课》推荐该课程。