博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[转] Python 字符编码判断
阅读量:6689 次
发布时间:2019-06-25

本文共 980 字,大约阅读时间需要 3 分钟。

转自:http://www.cnblogs.com/dkblog/archive/2011/03/02/1980644.html

法一:

isinstance(s, str) 用来判断是否为一般字符串
isinstance(s, unicode) 用来判断是否为unicode
if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass
法二:
Python chardet 字符编码判断
使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。 
chardet实例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。 
chardet 安装
下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。 
或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。 
python setup.py install参考
chardet官网 http://chardet.feedparser.org/
chardet下载页面:http://chardet.feedparser.org/download/

转载于:https://www.cnblogs.com/Arborday/p/10530441.html

你可能感兴趣的文章
基于云计算的软件是否适合企业不同需求?
查看>>
大数据可能“说谎”,非结构化数据将呈现更丰富的世界
查看>>
10幅图解释机器学习中的基本概念
查看>>
上传图片到图片服务器上
查看>>
Linux 系统监控常用命令
查看>>
Slab,小对象也能搞出大事情
查看>>
VMWare14 安装Mac OS系统(图解)
查看>>
VR影视“万事俱备只欠东风”,它会成为下一个内容发展的风口吗?
查看>>
Kali Linux 网络扫描秘籍 第三章 端口扫描(一)
查看>>
6大历史遗留问题,将被区块链技术解决
查看>>
Installation failed with message INSTALL_FAILED_UID_CHANGED.--APK安装失败解决方法
查看>>
锐捷网络中标农行全国WLAN项目 助推“网点优势“转为“网络优势”
查看>>
万向区块链实验室董事长肖风:区块链经济才是真正的共享经济
查看>>
英伟达VR:GPU的发展还需要一个20年
查看>>
拿什么拯救你——王阿姨的少女心!
查看>>
共享单车步入物联网军备战
查看>>
斯坦福 CS183c 闪电式扩张(Blitzscaling)中文笔记
查看>>
MySQL时间戳与日期互转
查看>>
摘下月亮送给爱人?AstroReality用AR技术帮你实现
查看>>
PHP 魔术变量
查看>>