Python处理中文的时候的一些小技巧
相信第一次处理中文的朋友们可能都会对中文的encoding 和程序的报错很头疼。
如果你像我一样希望能够把事情尽快做好而不去深究,你可能会写一些异常处理的代码把 UnicodeEncodingError糊弄过去先,但当你开始怀疑有多少encoding出错的信息被你丢弃的时候,可能你会很惊奇。于是,你还是会想坐下来,(洗把脸)然后面对自己必须弄懂什么是utf-8,什么是 ‘gb2312’, 什么是 ‘gbk’ 和其中的猫腻。正如有时候猛撕小伤口上邦迪胶布的快感一样,有时候当你认真面对一些你平时一直回避的问题的时候(其实有时候需要的不是勇气), 你反而会觉得“不过如此”,并且能够一劳永逸的解决问题。
关于Python处理Unicode,我所能找到的最言简意赅的入门教程是:
Unicode In Python, Completely Demystified (揭秘Python Unicode)
简要罗列一下最重要最实用的点:
Solution
Decode early (尽早decode, 将文件中的内容转化成 unicode 再进行下一步处理) Unicode everywhere (程序内部处理都用unicode) Encode late (最后encode回所需的encoding, 例如把最终结果写进结果文件)1. Decode early
Decode to
>>> def to_unicode_or_bust(
… obj, encoding=’utf-8′):
… if isinstance(obj, basestring):
… if not isinstance(obj, unicode):
… obj = unicode(obj, encoding)
… return obj
…
>>>
detects if object is a string and if so converts to unicode, if not already.
2. Unicode everywhere
>>> to_unicode_or_bust(ivan_uni)
u’Ivan Krsti\u0107′
>>> to_unicode_or_bust(ivan_utf8)
u’Ivan Krsti\u0107′
>>> to_unicode_or_bust(1234)
1234
3. Encode late
Encode to
>>> f = open(‘/tmp/ivan_out.txt’,’w’)
>>> f.write(ivan_uni.encode(‘utf-8’))
>>> f.close()
我以前一直觉得unicode相关的处理都是很 dirty 的工作,一般都会一边尝试,一边用异常处理去补丁,看完以上这个教程以后豁然开朗。
祝大家也能早日理清处理中文的时候的头绪,坦然直面“神秘”的unicode
转载于酷壳CoolShell 无删改 仅以此纪念陈皓(左耳朵耗子)
我刚出社会的时候,是用的破解的,我感觉用着还不错.公司项目和自己的个人项目都是用破解插件用的,显示 2099 年的那种. 工作几年后,就开始使用学生邮箱申请一年试用.发现和破解…
各位大牛 谁有 ios 企业签名资源 价格便宜的 朋友公司现在有个 app ,ios 端用户在 5w 左右,每天安装量在 1000 左右,目前用的有点贵 还频繁掉签 或者有什么…
在没有使用 vpn 软件之前使用 WiFi 万能钥匙进行安全检测时(检查是否遭到 DNS 劫持)显示是安全的,一旦使用了 vpn 软件然后断开 vpn 再使用万能钥匙进行检测(…