zoukankan      html  css  js  c++  java
  • php 空格无法替换,utf-8空格惹的祸

        一次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(" "..)、preg_replace("/s/"..)都不起作用。

    <?php
    
    // 替换<p>后4个空格
    $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
    $str = str_replace(" ", "-", $str);
    $str = preg_replace("/s/", "-", $str);
    echo $str;  // 不起作用
    

      没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII 194 + 160出来的。

    <?php
    
    // 替换<p>后4个空格
    $str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
    $str = str_replace(chr(194) . chr(160), "-", $str);  // 解决方法
    echo $str;  // OK
    

      实验下这个空格。

    <?php
    
    // utf-8无bom文件下,四个空格
    $s1 = chr(194) . chr(160);
    $s2 = chr(32);
    $s3 = " ";
    $s4 = " ";  // 全角空格
    $s = $s1 . $s2 . $s3 . $s4;
    
    // 判断
    $r  = '';
    if ($s1 == $s2) $r .= 1;
    if ($s1 == $s3) $r .= 2;
    if ($s1 == $s4) $r .= 3;
    if ($s2 == $s3) $r .= 4;
    if ($s2 == $s4) $r .= 5;
    if ($s3 == $s4) $r .= 6;
    
    // 结果
    echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/s/", "-", $s);
    

      结果:为方便书写,|代表空格,|代表全角空格。

      ||||####4####|--|####|--|

      改下浏览器编码为gbk,结果:聽 銆€#####4####聽--銆€####聽--銆€

      问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”(194 160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。

      总结下来就是:替换不了的字符,打印出ASCII码来总能替换掉吧。

    参考:解决采集UTF-8网页空格变成问号乱码  诡异的UTF8空格

  • 相关阅读:
    Shell Script-读取配置文件
    [LeetCode]题解(python):048-Rotate Image
    [LeetCode]题解(python):043-Multiply Strings
    暑假学习记录(七)
    暑期学习记录(六)
    暑假学习记录(五)
    暑假学习记录(四)
    暑假学习记录(三)
    暑假学习记录(二)
    暑假学习记录(一)
  • 原文地址:https://www.cnblogs.com/oldphper/p/4128138.html
Copyright © 2011-2022 走看看