Python处理中文的时候的一些小技巧
相信第一次处理中文的朋友们可能都会对中文的encoding 和程序的报错很头疼。
如果你像我一样希望能够把事情尽快做好而不去深究,你可能会写一些异常处理的代码把 UnicodeEncodingError糊弄过去先,但当你开始怀疑有多少encoding出错的信息被你丢弃的时候,可能你会很惊奇。于是,你还是会想坐下来,(洗把脸)然后面对自己必须弄懂什么是utf-8,什么是 ‘gb2312’, 什么是 ‘gbk’ 和其中的猫腻。正如有时候猛撕小伤口上邦迪胶布的快感一样,有时候当你认真面对一些你平时一直回避的问题的时候(其实有时候需要的不是勇气), 你反而会觉得“不过如此”,并且能够一劳永逸的解决问题。
关于Python处理Unicode,我所能找到的最言简意赅的入门教程是:
Unicode In Python, Completely Demystified (揭秘Python Unicode)
简要罗列一下最重要最实用的点:
Solution
Decode early (尽早decode, 将文件中的内容转化成 unicode 再进行下一步处理) Unicode everywhere (程序内部处理都用unicode) Encode late (最后encode回所需的encoding, 例如把最终结果写进结果文件)1. Decode early
Decode to
>>> def to_unicode_or_bust(
… obj, encoding=’utf-8′):
… if isinstance(obj, basestring):
… if not isinstance(obj, unicode):
… obj = unicode(obj, encoding)
… return obj
…
>>>
detects if object is a string and if so converts to unicode, if not already.
2. Unicode everywhere
>>> to_unicode_or_bust(ivan_uni)
u’Ivan Krsti\u0107′
>>> to_unicode_or_bust(ivan_utf8)
u’Ivan Krsti\u0107′
>>> to_unicode_or_bust(1234)
1234
3. Encode late
Encode to
>>> f = open(‘/tmp/ivan_out.txt’,’w’)
>>> f.write(ivan_uni.encode(‘utf-8’))
>>> f.close()
我以前一直觉得unicode相关的处理都是很 dirty 的工作,一般都会一边尝试,一边用异常处理去补丁,看完以上这个教程以后豁然开朗。
祝大家也能早日理清处理中文的时候的头绪,坦然直面“神秘”的unicode
转载于酷壳CoolShell 无删改 仅以此纪念陈皓(左耳朵耗子)
留下书名以及你对这本书的评价 活着 推荐些技术书籍,大家都是程序员,其它领域的书先放一放 Kubernetes in Action, 2nd edition 重构 改…
最近黑群晖弄起来了,但是在电视上看 NAS 里的 4k 蓝光原盘电影的时候特别卡,完全看不了 我测试的片源是一部 4k 蓝光原盘电影,大概 75G 左右 电视是红米 x75 2…
转送门: mp.weixin.qq.com/s/eWOdlsFHRCVgm7JeceUyiA 贵 还行吧,我买 4600 时也 2200 多了,现在看就是个冤大头,听说…
合速度