zoukankan      html  css  js  c++  java
  • 总结php删除html标签和标签内的内容的方法

    经常扒别人网站文章的坑们;
    我是指那种批量式采集的压根不看内容的;
    少不了都会用到删除html标签的函数;
    这里介绍3种不同用途上的方法;

    $str='<div><p>这里是p标签</p><img src="" alt="这里是img标签"><a href="">这里是a标签</a><br></div>';
    PHP

    1:删除全部或者保留指定html标签
    php自带的函数strip_tags即可满足要求,
    使用方法:
    strip_tags(string,allow);
    string:需要处理的字符串;
    allow:需要保留的指定标签,可以写多个;

    echo strip_tags($str,'<p><a>');
    
    //输出:<p>这里是p标签</p><a href="">这里是a标签</a>
    PHP

    此函数的优点是简单粗暴;
    但是缺点也很明显;
    如果有一大堆标签;
    而我只是想删除指定的某一个;
    那要写很多需要保留的标签;
    所以有了第二个方法;

    2:删除指定的html标签
    使用方法:strip_html_tags($tags,$str);
    $tags:需要删除的标签(数组格式)
    $str:需要处理的字符串;

    function strip_html_tags($tags,$str){
        $html=array();
        foreach ($tags as $tag) {
            $html[]="/(<(?:/".$tag."|".$tag.")[^>]*>)/i";
        }
        $data=preg_replace($html, '', $str);
        return $data;
    }
    echo strip_html_tags(array('p','img'),$str);
    //输出:<div>这里是p标签<a href="">这里是a标签</a><br></div>;
    PHP

    3:删除标签和标签的内容
    使用方法:strip_html_tags($tags,$str);
    $tags:需要删除的标签(数组格式)
    $str:需要处理的字符串;

    function strip_html_tags($tags,$str){
        $html=array();
        foreach ($tags as $tag) {
            $html[]='/<'.$tag.'.*?>[s|S]*?</'.$tag.'>/';
            $html[]='/<'.$tag.'.*?>/';
        }
        $data=preg_replace($html,'',$str);
        return $data;
    }
    echo strip_html_tags(array('a','img'),$str);
    //输出<div><p>这里是p标签</p><br></div>
    PHP

    很多网站文章里面会带上网站名和链接;
    比如<a href="http://www.baijunyao.com">白俊遥博客</a>;
    这个函数就是专治这种;
    别拿这个函数采集本站啊;
    不然保证不打死你;
    4:终极函数,删除指定标签;删除或者保留标签内的内容;
    使用方法:strip_html_tags($tags,$str,$content);
    $tags:需要删除的标签(数组格式)
    $str:需要处理的字符串;
    $ontent:是否删除标签内的内容 0保留内容 1不保留内容

    /**
     * 删除指定标签
     *
     * @param array $tags     删除的标签  数组形式
     * @param string $str     html字符串
     * @param bool $content   true保留标签的内容text
     * @return mixed
     */
    function stripHtmlTags($tags, $str, $content = true)
    {
        $html = [];
        // 是否保留标签内的text字符
        if($content){
            foreach ($tags as $tag) {
                $html[] = '/(<' . $tag . '.*?>(.|
    )*?</' . $tag . '>)/is';
            }
        }else{
            foreach ($tags as $tag) {
                $html[] = "/(<(?:/" . $tag . "|" . $tag . ")[^>]*>)/is";
            }
        }
        $data = preg_replace($html, '', $str);
        return $data;
    }
    //输出<div><p>这里是p标签</p><img src="" alt="这里是img标签"><br></div>;
    PHP

    前面扯了那么多;
    其实最后这个函数才是干货;
    一口气搞定各种标签删除的疑难杂症不费劲;
    别看下面这张截图了;
    无非带点颜色好看;
    我主要是拿来凑图当文章封面的;
    白俊遥博客

  • 相关阅读:
    idea 提示不能打开cmd.exe,idea 编译项目 CreateProcess error=740, 请求的操作需要提升 --->如何设置cmd以管理员身份运行
    Maven之--安装nexus 私服
    如何生成effective-pom
    maven之---资源过滤 在java/main/resourse/*.xml ,*.properties引用maven属性${db.username}
    使用JavaMailSender 发送邮件
    spring 读取account-service中的值
    spring web.xml 标签<param-name>contextConfigLocation</param-name>
    application.properties案例
    解决mybatis-plus的updateById报错的问题
    postman百度云下载
  • 原文地址:https://www.cnblogs.com/shaoguan/p/7336984.html
Copyright © 2011-2022 走看看