找回密码
 立即注册
搜索
热搜: 活动 通知
查看: 25|回复: 0

第14集的文字稿

[复制链接]

406

主题

308

回帖

3188

积分

管理员

积分
3188
发表于 6 天前 | 显示全部楼层 |阅读模式
001.
上世纪八十年代,为了在电子设备中处理本国和本地区的字符,各个国家和地区都采用了不同的字符集和编码方案。在当时那个年代,各种不同的编码标准互不相同,互不兼容。给定一个代表字符的数字,也就是字符的编码,在不同的国家和地区代表不同的字符。于是,从一个国家和地区发出的数字信息,在传到其它国家和地区的计算机系统时,就可能无法显示和打印正确的字符,也就是导致乱码。


事情是明摆着的,必须创建一个全球统一的字符集和编码标准,这个标准必须涵盖全球的语言和文字。在这种情况下,全球标准化组织和国际电工联盟在各国的参与下,于1993年制订并发表了《信息技术——统一多八位编码字符集(UCS)》的第一部分,标准代号是ISO/IEC 10646-1:1993。


国际标准ISO/IEC 10646是当前技术最先进的国际标准之一,对全世界所有文字统一编码,以实现全世界所有文字的统一处理。随着全球信息化的进程,采用国际标准ISO/IEC 10646已逐渐成为全世界范围内信息技术产品开发的主流。


002.
ISO 10646-1标准发布后,我国也开始实施国际标准的本地化,并制定了我国国家标准GB/T 13000。该标准等同采用国际标准ISO/IEC 10646,首次发布于1993年。


GB/T 13000多年来一直为国内外众多中文操作系统、应用软件生产商所采用,是我国信息技术产业的基础性标准。和ISO/IEC 10646一样,GB/T 13000也历经几次修订。


003.
就在国际标准化组织制定ISO/IEC 10646的时候,1991年1月,在美国加利福尼亚成立了一个叫UNICODE的协会,通过这个名字就可以知道他们的雄心壮志:制定一个全球性的字符集和编码标准。UNICODE协会有众多政府、学术机构和知名的大公司参与,这是其影响力的来源。


ISO/IEC 10646比较单纯,它就是一个字符集和编码方案的描述,而Unicode是一个更接近计算机产业的联盟,所以,除了定义字符集和编码方案,它的工作还包括字符属性和算法、用于国际化的语言和区域设置数据,以及使程序可以访问所有内容的生产软件库。


考虑到ISO/IEC 10646和Unicode联盟的很多工作是重复的,所以这两个组织从很多年前就开始通力协作,一起致力于标准的制定、标准的一致性、标准的推广和各自版本的同步工作。


004.
ISO/IEC 10646和Unicode组织的主要成果是全球统一的字符集UCS。可以想象,全球统一的字符集UCS非常庞大,因为世界上的语言文字很多。在收集字符的时候,当然是把属于同一种语言的字符收集在一起。为此,整个UCS字符集里的字符被分成128个组,理论上每个组里的字符都属于同一种语言。


接下来,每个组又被划分为256个平面,而每个平面又分为256行,每一行又包含256个字符位置,简称字位。这样算下来,整个UCS字符集里的字符数量是128*256*256*256。


005.
因此,在UCS字符集里,每个字符的代码点由四个部分组成,分别是它所在的组、平面、行和字位。因此,理论上,第1个字符的代码点是00000000;最后一个字符的代码点是80FFFFFF。


本标准设计之初考虑到需囊括全世界文字,所以编码空间制定得极为庞大,共包含128个组,其中每组有256个平面。


然而通过统计学家分析预测和多年标准实际使用验证,并不需要如此大的编码空间便可收录尽世界上各种文字及符号。因此,最新的ISO/IEC 10646标准将整体结构进行缩减,仅保留17个平面。此时,每个字符的代码点由平面、行和字位组成。比如汉字“人”这个字符位于00平面、4E行和BA字位。


经过削减的新版字符集中有一百万个字符,这已经足够了。理论上,第一个字符的代码点是000000;最后一个字符的代码点是10FFFF。


字符在字符集中的位置用代码点来表示,统一字符集UCS中的字符可以用多种形式的代码点来表示,最常用的就是用前缀字母“U”、一个加号“+”和代表字符位置的数字组成,比如汉字“人”的代码点是U+4EBA。




您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|鼠侠网 ( 吉ICP备19001332号 )

GMT+8, 2024-11-23 20:19 , Processed in 0.222539 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表