zoukankan      html  css  js  c++  java
  • php preg_replace空格无法替换问题

    一次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(" "..)、preg_replace("/s/"..)都不起作用。

    1 <?php
    2 
    3 $str = '<p>    你好<p>';
    4 $str = preg_replace('/s/is','',$c);
    5 $str = str_replace(" ", "a", $str); 
    6 var_dump($str); //不起作用

    没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII 194 + 160出来的。

    1 <?php
    2 
    3 $str = '<p>    你好<p>';
    4 $str = str_replace(chr(194) . chr(160), "a", $str);  // 解决方法1
    5 $str = preg_replace('/xC2xA0/is', "a", $str);  // 解决方法2
    6 var_dump($str); //ok

    问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”(194 160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。

    整理遇到的各种无法替换的字符:

    chr(194).chr(160) 变现为空格

    chr(227).chr(128) 变现为空格

    chr(226).chr(128).chr(172).chr(226).chr(128).chr(172).chr(30) 变现为空

    总结:替换不了的字符,打印出ASCII码来总能替换掉吧。

  • 相关阅读:
    log4net 配置 一站式解决
    设计模式-职责链模式(ChainOfResponsibility)
    springboot+Kafka(生产者和消费者)
    springboot启动过程分析
    Eureka注册中心原理
    JDK8常量池整理
    第2章 Java内存区域与内存溢出异常
    第5章 数据库分库分表实例
    物理分页和内存分页-引用
    spring4体系架构
  • 原文地址:https://www.cnblogs.com/zqifa/p/php-10.html
Copyright © 2011-2022 走看看