网络营销推广方法有哪几种,淄博seo费用,举报网站建设情况汇报,法制网站建设问卷调查1.\ufeff 字节顺序标记
去掉\ufeff#xff0c;只需改一下编码就行#xff0c;把UTF-8编码改成UTF-8-sig
with open(file_path, moder, encodingUTF-8-sig) as f:
s f.read()
2.\xa0 是不间断空白符
\xa0 是不间断空白符
我们通常所用的空格是 \x20 #xff0c;是在标准AS…1.\ufeff 字节顺序标记
去掉\ufeff只需改一下编码就行把UTF-8编码改成UTF-8-sig
with open(file_path, moder, encodingUTF-8-sig) as f:
s f.read()
2.\xa0 是不间断空白符
\xa0 是不间断空白符
我们通常所用的空格是 \x20 是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 ISO/IEC_8859-1中的扩展字符集字符代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII 0x20~0x7e 。通常我们见到的字符多数是 latin1 的比如在 MySQL 数据库中。
去除\xa0
str.replace(u\xa0, u )
3.\u3000 是全角的空白符
根据Unicode编码标准及其基本多语言面的定义 \u3000 属于CJK字符的CJK标点符号区块内是空白字符之一。它的名字是 Ideographic Space 有人译作表意字空格、象形字空格等。顾名思义就是全角的 CJK 空格。它跟 nbsp 不一样是可以被换行间断的。常用于制造缩进 wiki 还说用于抬头但没见过。
去除\u3000
str.replace(u\u3000,u )
去除空格和\xa0、\u3000
title.strip().replace(u\u3000, u ).replace(u\xa0, u )