[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选
中文编码GB2312
回忆上次内容
- 上次回顾了 日韩各有 编码格式 日本 有假名五十音 一字节 可以勉强放下 有日本汉字字符数量超过20000+ 韩国 有谚文数量超过500 一个字节 放不下 有朝鲜汉字字符数量超过20000+

- 作为 汉字源头的中国究竟应该 如何对汉字 进行编码 呢?🤔
汉字
- 汉字起源于甲骨文是世界上唯一还在使用的象形文字 真的很不容易

- 写的本意 就是 画写意 写生
- 这就是最初的象形字
六书
- 以象形为基础指事 会意 形声 转注 假借

- 字的结构是什么呢?
间架结构
- 上下
- 左右
- 内外

- 字型相当复杂
- 笔画也千姿百态
汉字笔画
- 笔画也比较复杂

- 运笔藏锋都很有讲究
中国大陆地区
- 中国大陆地区最早使用 GB/T 2312-1980当时参考了比我们先进的日本JIS 字符集 1980 年 指定的国标 (GuoBiao) 1981 年 5 月 1 日开始使用
- GB2312 编码共收录汉字 6763 个其中一级汉字 3755 个 二级汉字 3008 个
- 这么多字怎么排呢?
区位
- 01-09 区为特殊符号先把ascii的128个字符让出去 然后在留有一些制表的字符 还留了相当多的空余
- 16-55 区为一级汉字按拼音排序
- 56-87 区为二级汉字按部首/笔画排序

- 出了汉字之外,还收录了拉丁字母 希腊字母 日文平假名及片假名字母 俄语西里尔字母 真的很全了
- 可是这gb2312具体是如何编解码的呢?🤔
应用

- 如果是0-127以内的ascii字符标志位为0 1个字节存储

- 如果是ascii以外的字符标志位为1 2个字节存储
编解码
- 编解码方法一致就可以解铃还须系铃人

- 同时用 gb2312 编解码是没有问题的
- 这篇 制定标准的文档当时怎么打印出来的呢? 制定内码标准的 时候 就有 字形 了吗?
铅字
- 虽然 计算机 在当时 还 没有普及但是 出版行业 已经 工业化 了

- 印刷厂 使用 铅活字 进行排版铸字工 拼版工 还有拣字工
拣字工
- 印刷家谱 从 一个大盒子 就够了

- 字 再多些要用 转轮排字盘

- 字 再多些呢?
捡字室
- 大 印刷厂字模 特别多

- 甚至 要放好 几面墙 好 几张桌子
开端
- 这 也 曾被使用26个字母的 西方文明 嘲讽

- 出书确实不易捡好了 字 排好了 版 先 打个样 再来 校对 再 浇铅板 最后 印刷
- 最初的书籍 杂志 报纸 试卷 都是这样 印刷出来 的
- 到了 印刷 gb2312-80标准的 1980年已经启用了新的技术
机械打字机
- 从 轮转排字盘到 谢卫楼 发明的 中文打字机

- 再到 舒震东在前人的研究基础上经过创新 得到的 舒式打字机

- 中文字符 的数量是 一个难关
- 直到照相技术 的 发展
照片排版
- 使用 照片底片 进行排版

- 也面临检字的工作

- 照片排版技术本身也在迭代
激光照排
- 这次使用 激光 扫描照片

- 每一个小字型都是一个照片根据汉字内码找到汉字对应的激光照片 然后再把激光照片像活字一样排版 这就是激光照排技术

- 用照片排版的方式制作了这样一个汉字编码的文档
- 标准定了立刻就能用起来么?
过程
- 凡事都有个过程95年定的gbk 98年才逐渐推行开来
- 但还是有些生僻字没有相应的字型

- 内码从无到有字形码也从无到有

感谢前辈
- 感谢王选与陈堃銶前辈的技艺

- 激光照排技术 可以印刷中文书籍 和 报纸 了
总结
- 简体和繁体的汉字字符数量都超级大 感谢王选和陈堃銶等前辈发明了激光照排技术 中文排版从此使用上了gb2312编码

- 纸张之外显示器是更先进的输出设备
- 计算机是如何在显示器上显示的呢?🤔
- 我们下次再说!👋
- 蓝桥->https://www.lanqiao.cn/courses/3584
- github->https://github.com/overmind1980/oeasy-python-tutorial
- gitee->https://gitee.com/overmind1980/oeasypython
还没人转发这篇日记