Python字符串编码——Unicode

ASCII码

我们领略,在电脑中,所有的信最终还代表也一个二进制的字符串。每一个二进制位(bit)有0和1点儿种植状态,因此八只二进制位就可组合出256栽状态,这让名一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同之状态,每一个态对应一个号,就是256个号,从0000000到11111111。
上个世纪60年代,美国制订了千篇一律效字符编码,对英语字符与二进制位之间的涉嫌,做了合并规定。这被叫做ASCII码,一直沿用至今。
ASCII码一共规定了128单字符的编码,比如空格”SPACE”是32(二上制00100000),大写的字母A是65(二向前制01000001)。这128个记号(包括32单不可知打印出来的操纵符号),只占了一个字节的尾7各,最前面的1位统一规定为0。

非ASCII编码

英语用128单标志编码就够了,但是用来表示其余语言,128个号是不够的。比如,在法语中,字母上方有注音符号,它就是无法用ASCII码表示。于是,一些欧洲邦就决定,利用字节中不了了之的嵩位编入新的标志。比如,法语中之é的编码为130(二进制10000010)。这样一来,这些欧洲国采用的编码体系,可以表示最好多256单记号。

而是,这里而并发了初的题材。不同之国发出例外的字母,因此,哪怕它都采取256个记号的编码方式,代表的字母却无雷同。比如,130当法语编码中代表了é,在希伯来语编码中倒是表示了许母Gimel
(ג),在俄语编码中又会意味着任何一个标志。但是无论如何,所有这些编码方式中,0–127代表的记号是如出一辙的,不相同的无非是128–255的即无异段落。

有关亚洲国家的文,使用的号就更多了,汉字就是大多上10万横。一个字节只能表示256栽标志,肯定是不够的,就得以多个字节表达一个标记。比如,简体中文常见的编码方式是GB2312,使用简单只字节表示一个中国字,所以理论及太多足代表256×256=65536个号。

中文编码的问题要专文讨论,这篇笔记不干。这里仅仅指出,虽然还是因此几近只字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

Unicode

赶巧而齐一样省所说,世界上存在正在多编码方式,同一个二进制数字可以给说成不同的记。因此,要想打开一个文件文件,就得懂得它的编码方式,否则用错误的编码方式解读,就见面冒出乱码。为什么电子邮件时出现乱码?就是盖发信人和收信人使用的编码方式不等同。

可想像,如果发生相同种植编码,将世界上保有的符号都纳入其中。每一个标记都予以一个举世无双之编码,那么乱码问题虽会见破灭。这便是Unicode,就像其的讳都代表的,这是同样种植有符号的编码。

Unicode当然是一个要命老之集纳,现在的局面得以容纳100大多万只标志。每个符号的编码还无平等,比如,U+0639代表阿拉伯字母Ain,U+0041意味着英语的好写字母A,U+4E25表示汉字”严”。具体的符号对应表,可以查询unicode.org,或者特别的汉字对应表。

Unicode的问题

亟需注意的凡,Unicode只是一个符号集,它仅仅规定了符的老二前行制代码,却绝非规定是二进制代码应该什么存储。

随,汉字”严”的unicode是十六向前制数4E25,转换成二迈入制数足足有15各类(100111000100101),也就是说这个符号的代表至少需要2个字节。表示其余更特别的记号,可能要3只字节或者4只字节,甚至更多。

此间就是生出个别个严重的题目,第一单问题是,如何才会分Unicode和ASCII?计算机怎么懂得老三独字节表示一个标志,而无是独家代表三单记号为?第二单问题是,我们已经知晓,英文字母只所以一个字节表示即够用了,如果Unicode统一确定,每个符号用三单或四单字节表示,那么每个英文字母前都一定产生次顶三独字节是0,这对于仓储来说是高大的荒废,文本文件的高低会因此大出二三倍,这是无能为力经受之。

它造成的结果是:1)出现了Unicode的强囤方,也就是说有许多种不同的亚前行制格式,可以就此来代表Unicode。2)Unicode在雅丰富一段时间内无法放开,直到互联网的起。

UTF-8

互联网的推广,强烈要求出现同等种植统一的编码方式。UTF-8就是当互联网及用最广大的同等栽Unicode的实现方式。其他实现方式尚连UTF-16(字符用单薄独字节或四独字节表示)和UTF-32(字符用四单字节表示),不过当互联网及着力不用。重复同一满,这里的涉是,UTF-8凡是Unicode的实现方式有。

UTF-8最老的一个特征,就是它们是一律种变长的编码方式。它可以1~4只字节表示一个符号,根据不同的号子而变化字节长度。
UTF-8的编码规则不行简单,只出次条:

1)对于单字节的号,字节的首先各项如为0,后面7各吗夫标记的unicode码。因此对英语字母,UTF-8编码和ASCII码是同样的。

2)对于n字节的符(n>1),第一独字节的面前n位都设为1,第n+1位设为0,后面字节的前面少个一律要为10。剩下的无提及的二进制位,全部乎是符号的unicode码。
下表总结了编码规则,字母x表示可用编码的各项。

Unicode符号范围 | UTF-8编码方式

(十六进制) | (二进制)

——————–+———————————————

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表,解读UTF-8编码非常简单。如果一个字节的首先位是0,则这字节单独就是一个字符;如果第一各类是1,则连续发小只1,就表示目前字符占用小个字节。

脚,还是坐汉字”严”为例,演示如何兑现UTF-8编码。

既了解”严”的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三履行的范围外(0000
0800-0000 FFFF),因此”严”的UTF-8编码需要三单字节,即格式是”1110xxxx
10xxxxxx
10xxxxxx”。然后,从”严”的结尾一个二进制位开始,依次从晚迈入填入格式中的x,多来之各类补0。这样就收获了,”严”的UTF-8编码是”11100100
10111000 10100101″,转换成十六进制就是E4B8A5。

python 中的字符串编码

在使用

#!/usr/bin/env python
# -*- coding:utf-8 -*-

默认的华语编码为utf8

>>> kel = '中' 
>>> kel
'\xe4\xb8\xad'

加入u以后,变成unicode

>>> kel = u'中'
>>> kel
u'\u4e2d'

python 文件字符串编码

保存Unicode字符到文本文档

#coding=utf-8
import os

def write_use_open(filepath):
    try:
        file = open(filepath, 'wb')
        try:
            content = '中华人民共和国abcd \r\nee ?!>??@@@!!!!!???¥@#%@%#xx学校ada\r\n'
            print file.encoding
            print file.newlines
            print file.mode
            print file.closed
            print content
            file.write(content)
        finally:
            file.close()
            print file.closed
    except IOError, e:
        print e


if __name__ == '__main__':
    filepath = os.path.join(os.getcwd(), 'file.txt')
    write_use_open(filepath)

起来自己是IDLE编写的,并一直按F5运作,没发现题目,文件呢被科学地保留,文件之编码类型为是utf-8.

可是我所以命令执行运行,却发现显示出现乱码了,然后以打开文件发现文件为科学保存了,编码还是utf-8:

电子科技 1

问题是令执行未能够自动识别字符编码吧,因为IDLE显示是天经地义的,它支持utf-8。

遂自己修改了代码,在字符串前加了’u’,表明content是unicode:
content = u’中华人民共和国abcd \r\nee
?!>??@@@!!!!!???¥@#%@%#xx学校ada\r\n’

不过运行发现,命令行是正确显示了,但是可出现异常:

电子科技 2

良扎眼,content里带有了非ASCII码字符,肯定不克以ASCII电子科技来拓展编码的,write方法是默认使用ascii来编码保存的。

怪易就得想到,在保存之前,先对unicode字符进行编码,我选utf-8

#coding=utf-8
import os

def write_use_open(filepath):
    try:
        file = open(filepath, 'wb')
        try:
            content = u'中华人民共和国abcd \r\nee ?!>??@@@!!!!!???¥@#%@%#xx学校ada\r\n'
            print file.encoding
            print file.newlines
            print file.mode
            print file.closed
            print content
            print unicode.encode(content, 'utf-8')
            file.write(unicode.encode(content, 'utf-8'))
        finally:
            file.close()
            print file.closed
    except IOError, e:
        print e

if __name__ == '__main__':
    filepath = os.path.join(os.getcwd(), 'file.txt')
    write_use_open(filepath)

省运行结果:

电子科技 3

OK了打开文档也是不错的。
读取文件又怎么样?同样道理,只是这次不是编码了,而解码:

def read_use_open(filepath):
    try:
        file = open(filepath, 'rb')
        try:
            content = file.read()
            content_decode = unicode(content, 'utf-8')
            print 'original text'
            print content
            print 'decode using utf-8'
            print content_decode
        finally:
            file.close()
    except IOError, e:
        print e

if __name__ == '__main__':
    filepath = os.path.join(os.getcwd(), 'file.txt')
    write_use_open(filepath)
    print 'read file ---------------------------'
    read_use_open(filepath)

电子科技 4

胡非直接当open的时节便解码呢?呵呵,可以什么,可以使用codecs的open方法

import codecs
def read_use_codecs_open(filepath):
    try:
        file = codecs.open(filepath, 'rb', 'utf-8')
        try:
            print 'using codecs.open'
            content = file.read()
            print content
        finally:
            file.close()
    except IOError, e:
        print e

电子科技 5

网络中乱码的化解

汉语网页中,有些网页抓取下来之后,由于网页编码的问题,需要展开解码。首先我们用判定网页中到底使用的是啊编码,在冲这个编码把字符串变成utf8编码。

于探测编码时,chardet第三方库非常的好。

网页编码判断:

import urllib
rawdata = urllib.urlopen('http://tech.163.com/special/00097UHL/tech_datalist.js').read()
import chardet
print chardet.detect(rawdata)

{'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}

由此 chardet
探测有,网页的字符编码为GB2312编码,通过unicode转化为utf8编码:

str_body = unicode(rawdata, "gb2312").encode("utf8")

重多入门教程可以参见:[http://www.bugingcode.com/python_start/]
(http://www.bugingcode.com/python_start/)

相关文章