蒙文编码总结 第1篇
回复匿名答主:
1、可以通过原回答的数组计算,每个数组占据空间,两个数组则占据。
2、占用数组是因为我考虑的不仅仅是通用规范汉字,而是整个unicode,以及unicode的未来发展和变化。我的要求是:无论unicode当前怎样,亦无论unicode未来如何发展,映射表都应能够提前兼容它。这也是为什么我前面说unicode如何发展变化I don't care的原因。
3、关于内码映射表,你也可以参考TeX的源码或其字符映射表。我只不过是把该映射表从ASCII拓展至unicode而已。
总结:简单地说,内码映射表就是另起炉灶,把unicode的主要缺陷都给修正过来,从而形成一套新的标准,叫stacode(标准码),用来替代unicode(统一码);而内码映射表,就是用来与unicode相互转换的。
unicode本身并没有被修改和破坏,因此:
蒙文编码总结 第2篇
再次补充
匿名答主针对上述第二个问题,给出了不同意见,并给出了一个示例算法。
我的看法是:使用二分查找法,确实可以缩减计算的次数,但相比于内码映射表的效率,这种优化的意义不大,因为二者仍然存在百倍的效率差别。
假定通用规范汉字已经按照某种规则排了序,那么考虑以下几个任务:
你会发现,二分查找法依然很吃力,而内码映射表分分钟搞定。特别是第4点,难道你要对几百KB、MB、GB的文本数据,逐字符采用二分查找法么?这显然是不可能的嘛。如果采用内码映射表可以直接判断结果,而不需要逐字符实施二分查找,那不是更香么?
蒙文编码总结 第3篇
全国信息技术标准化技术委员会归口管理《字形标准编码》,我们要在内蒙古自治区政府相关部门的统一领导下,组建团队、制定《字形标准编码》。
成立由信息技术学者和专家、xxx学者和专家组成的技术委员会,首先确定《字形标准编码》的制定、更新、升级换代的工作机制和方式方法,然后在广泛征求xxx各行各业用户意见和建议的基础上,编制确定《字形标准编码》。
通过上述办法制定出适用于全世界传统xxx输入、输出、存储、 处理、排序、检索、统计、数据交换等需求的“全球唯一的、统一的”《字形标准编码》,xxx古文文字处理、通信处理、信息交换、数 据处理、以及各行各业xxx处理的应用需求。
目标是实现在全世界应用传统xxx的国家和行业内共同遵守 此 “全球唯一的、统一的”《字形标准编码》。
蒙文编码总结 第4篇
非标准编码的诞生和流行是因为在xxx软件刚开始发展的时候当时的操作系统、浏览器和办公软件等大部分应用系统不支持xxx国际标准编码(主要是因为xxxUnicode编码有很多变形规则、大多是不支持这个变形规则),软件研发者们就在Unicode编码的私有编码区自己定义字符编码为每个xxx字符定义一个码位,从而无需考虑变形规则输入什么就显示什么,但是前提条是要有对应的字体文件才可显示,否则就是乱码字符了。想进一步了解的请翻看相应的文档深入研究。
这种情况下诞生的编码有很多,现在市面上仍然有大量的信息化资源是这种非标准编码编写和存储的,典型的代表有蒙科立编码、明安图编码、德力海编码等,此外还有一些是以前也有一定用户量的编码,下面逐一介绍。
蒙文编码总结 第5篇
在政府相关部门的统一领导下,在各行各业统一使用《字形标准编码》,所有输出显示xxx字形的电子设备、数字化设备都要统一到《字形标准编码》上来。可以采取如下几个步骤:
1.开发统一的《字形标准编码》xxx系统平台。系统平台是指系统级别的输入输出功能,系统平台开发企业要按《字形标准编码》开发电脑、手机、iPad 等设备之上的输入输出功能,来满足在其系统平台上应用程序的开发;
2.应用系统的开发和移植。用户开发新应用系统时要在《字形标 准编码》系统平台上进行开发,对原有应用系统要做移植开发,移植到《字形标准编码》系统平台上;
3.存量数据的迁移。对原有存量数据进行迁移,开发存量数据编码到《字形标准编码》的升级转换程序,把存量数据迁移到《字形标准编码》;
4.旧字形编码退出市场流通。首先经过_国家标准 化委员会审批,颁布《字形标准编码》为中国国家标准,由国家质量监管部门监管,要求不符合《字形标准编码》的产品限时退出国内市场。
蒙文编码总结 第6篇
作为标准,保持稳定不变是非常必要的,持续的时间越长越好,这是所有的生产厂家和用户期望的,也是制定者的目标。但是,随着科学技术的发展和xxx信息技术应用的普及,《字形标准编码》也必须紧随科学技术的发展,满足用户的新要求,及时升级换代,即版本更新也是必须的。回顾xxx信息化历程,xxx编码还是存在这方面问题的。
要依照学者和专家委员会制定的《字形标准编码》更新和升级换 代的工作机制及方式方法进行版本的升级换代。版本的更新和升级换 代内容应包括确定新版本的《字形标准编码》,按新版本的《字形标 准编码》更新系统平台、应用系统,按新版本的《字形标准编码》迁 移存量数据等。
《字形标准编码》的更新及升级换代的工作内容与第三条讲述的 内容基本一致,以后的《字形标准编码》的升级换代的工作内容是第四条、第三条循环往复的过程,只有如此循环往复才能保证《传统xxx信息交换与处理字形标准编码》满足实际应用的需要。
以上是我们几位人士经过几年的摸索、总结得出的建议,肯定有很多不对之处,仅供各位学者、专家们斧正。
联系方式 微信群名称:monggol
微信公众号:传统xxx字形编码
蒙文编码总结 第7篇
为实现世界上所有文字在计算机上的统一处理,1991年,统一码联盟(Unicode联盟)学术学会与ISO国际标准化组织决定共同制订一套适用于多种语言文本的通用编码标准,制定从内容上来说是同步一致的Unicode标准(The Unicode Standard)和ISO/IEC 10646国际编码标准。1993年,国际标准化组织发表 ISO/IEC 10646-1:1993 通用多八位编码字符集国际编码标准的首个版本。中国制定了相应的国家标准GB 《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。在1993年中国计算机文字处理采用的是GB 2311体系结构的GB 2312-1980汉字编码,在GB 2311体系结构过渡到GB 的过程中又制定了GB 18030-2000,GB 18030-2005,目前使用兼容ISO/IEC 10646-1国际编码标准的版本为GB 13000-2010,2017年修订GB 13000-2010推荐性标准GB/T 13000-2010.
2000年2月,国际标准化组织ISO/IEC 10646-1 通过,Unicode联盟技术委员会认可了《xxx国际标准编码》(也称xxxUnicode编码),此标准是xxx的首个国际化标准,具有里程碑意义。中国国家标准GB 18030-2005,GB/T 13000-2010均采纳了《xxx国际标准编码》。然而《xxx国际标准编码》的编码字符集只包含xxx名义字符、自由变体选择字符、标点符号等,并不包含显现字符,也就是说国际标准和国家标准都没有制定《字形标准编码》。
蒙文编码总结 第8篇
匿名答主对以上内容作了进一步回复,提了三个问题。现作答如下:
1(1)通用规范汉字表按使用频率将汉字分为了三组,每一组按照笔划顺序进行了排序。这是一种排序规则,但显然你无法根据这个排序规则对8105个通用规范汉字按笔顺排序,所以,从汉字信息化处理的角度看,这种排序规则其实是无效的、无用的。
1(2)倒是通用规范汉字表的笔顺规范表,将全部8105个通用规范汉字按笔划顺序进行了重新排序。这是另一种排序规则,完美解决了1(1)的问题。然而,这种排序规则虽然有效,却没有什么意义——或者说,只利于汉字的标准化和检索,而对汉字的信息化处理,意义不大。
1(3)当然,也可以对8105个通用规范汉字按拼音、五笔、内码……进行排序,无论选择哪一种排序方式,其作用和意义,都与1(2)相同:解决了汉字的标准化和检索问题,却对汉字的信息化处理,意义不大。
1(4)真正对汉字的信息化处理有帮助的是:对通用规范汉字按字义进行排序。因为,所谓的信息化处理,首先就是对汉字进行字义层面的排序处理。具体地说,就是挑出通用规范汉字当中,具有一定数值含义、顺序含义,或具有其它字义规律的汉字,对他们按字义进行排序;之后,再对其余没有明显字义顺序的汉字按笔顺、拼音或其它规律排序(任选其中的一种)。这样做的好处,是从最底层,原生地,最高效地解决了汉字的信息化处理问题。
1(5)我不知道匿名答主的代码能力几何,不清楚你能不能理解上述“底层、原生、高效的信息化处理”的重要性和价值。如果能理解那是最好。如果不能理解,则你可以想象一下:将ASCII码的字母和数字的顺序打乱,然后想象乱序后的ASCII对英文的信息化处理将会产生多么巨大的破坏。这样,你就能理解我所念念叨叨的重要性和价值了。
2(1)给定一串文本,能不能仅仅通过unicode,用程序(代码)直接判断这段文本中的哪一个汉字属于/不属于通用规范汉字?对于“属于”的汉字,能不能进一步确定其是通用规范汉字的第几个汉字?
2(2)显然,两个答案都是“否”。另外,假如通过一定的算法实现了汉字的上述识别,那么其算法复杂度如何?你会发现,每识别一个字符,你都得进行最多3965次判断,这样的算法是没有任何实用价值的。唯一有价值的算法,就是我所说的内码映射算法。即便如此,也得消耗的内存。这都是unicode的锅(严格来说,是因为unicode先于汉字的相关规范而诞生,以至无法兼容后来发布的新规范。因而也不能说这全是unicode的锅。但是,一方面国家规范不可能屈尊去适应unicode,另一方面unicode作为万国码也不可能仅仅为了汉字就通盘更改其早期定型的方案,所以建立内码映射表将是唯一能够二者兼得的可行方案)。
3(1)篇幅有限,我总不能把全世界的每一种文字都说个遍。所以,我只说了使用频率最高和次高的ASCII和通用规范汉字,其它文字须由读者依次类推。
3(3)这其实不是汉字优先,而是通盘考虑后得出的整体方案,只不过我侧重描述其中的通用规范汉字这部分而已。否则,我为什么要把ASCII放在最优先位置呢?