zoukankan      html  css  js  c++  java
  • 提取HTML代码中文字的C#函数

    /// <summary>
      
    /// 去除HTML标记
      
    /// </summary>
      
    /// <param name="strHtml">包括HTML的源码 </param>
      
    /// <returns>已经去除后的文字</returns>

      public static string StripHTML(string strHtml)
      
    {
       
    string [] aryReg ={
              
    @"<script[^>]*?>.*?</script>",

              
    @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
              
    @"([\r\n])[\s]+",
              
    @"&(quot|#34);",
              
    @"&(amp|#38);",
              
    @"&(lt|#60);",
              
    @"&(gt|#62);"
              
    @"&(nbsp|#160);"
              
    @"&(iexcl|#161);",
              
    @"&(cent|#162);",
              
    @"&(pound|#163);",
              
    @"&(copy|#169);",
              
    @"&#(\d+);",
              
    @"-->",
              
    @"<!--.*\n"
             
             }
    ;

       
    string [] aryRep = {
               
    "",
               
    "",
               
    "",
               
    "\"",
               "&",
               
    "<",
               
    ">",
               
    " ",
               
    "\xa1",//chr(161),
               "\xa2",//chr(162),
               "\xa3",//chr(163),
               "\xa9",//chr(169),
               "",
               
    "\r\n",
               
    ""
              }
    ;

       
    string newReg =aryReg[0];
       
    string strOutput=strHtml;
       
    for(int i = 0;i<aryReg.Length;i++)
       
    {
        Regex regex 
    = new Regex(aryReg[i],RegexOptions.IgnoreCase );
        strOutput 
    = regex.Replace(strOutput,aryRep[i]);
       }


       strOutput.Replace(
    "<","");
       strOutput.Replace(
    ">","");
       strOutput.Replace(
    "\r\n","");


       
    return strOutput;
      }

    青苹果Web应用商店 https://webapp.taobao.com/

    PHP/ASP.NET/ASP/UCHOME/DISCUZ! X系列网站开发,详细需求联系QQ:8511978

  • 相关阅读:
    B. Xor of 3 题解(思维+构造)
    小 L 与 GCD 题解(数学 hard)
    F. Clear The Matrix 题解(状压dp)
    小顶堆与大顶堆的自定义cmp函数
    字符指针、字符数组
    python中创建dict对象
    中缀表达式转后缀表达式
    vue中keep-alive,include的缓存问题
    vue 冒号 :、@、# 是什么意思? v-bind v-on v-slot v-是指令
    vue 自定义指令 v-
  • 原文地址:https://www.cnblogs.com/Dicky/p/122372.html
Copyright © 2011-2022 走看看