关于字符编码

辛昕

关于字符编码 [复制链接]

在我的上一个帖子，提到了 C标准库里的 local库。
它可以设置 C库的内码。

当时，对于字符编码的部分，我一直没搞明白，事实上我当时也是不知道这里面的水到底有多深。

一直以来，说到英文，我只知道 ascii码，说到中文，我只知道 GB2312 和 BIG5.
在工作中因为涉及要显示多国文字，我接触了unicode编码，但因为这部分工作由同事完成，实际上我只知表面，不知内里。

所以上次，在strcoll这个帖子里，故弄了一下玄虚之后，因为忙，居然就把这件事抛诸九霄云外。
但我心里一直特别尴尬，答应了楠哥，要坚持好好发帖子，达到一个月60个，一天平均两篇的，恐怕又不够了。

今天周日，因为台风，我也就不出门折腾不加班了，在家里，直到这回才坐下来，想着好好把这个帖子结了。

说到字符编码，其实，内容比我们猜测的都要多一些。
但是，我觉得我没有必要搜索一番最后又自己总结一下。

下面这篇链接，其实我觉得已经说得足够详细了。
http://www.cnblogs.com/leesf456/p/5317574.html

辛昕

如果说我自己非要加一些什么补充就是：

对于unicode码，因为它不同于 ascii，或者 gbk big5这三种编码。
它最大的变化是，它的字节是不固定的，而后三者都是定字节，比如ascii码，一个字节表示一个编码，而gbk big5都是2字节。
因为它们表示的字符总数有限。
而unicode则不然，它已经容纳了全世界的文字和编码。
所以它采用了一种要复杂的多的多的编码。

但是，其实我们不用太关心这个事情。
因为，再复杂，我们都会有相应的转换算法。

比如说，虽然我在工作的时候，最终因为项目并非需要，我没有把实现 unicode gb2312 ascii三者之间的编码转化做进去，但实际上，我已经知道了一个专门用来处理转化的 C库。

libconv

所以下次，如果我再遇到这件事情，我第一时间就会去下载和编译，集成这个库到我自己的项目里，而你也可以。