zoukankan      html  css  js  c++  java
  • IOS 用正则表达式解析HTML等文件,得到所有文本

     获得网页内容

    NSURL *url=[NSURL URLWithString:@"http://121.199.34.52/wordpress/?json=core.get_post_content&post_id=8764&post_type=post"];
         NSDictionary * dic=[NSJSONSerialization JSONObjectWithData:[NSData dataWithContentsOfURL:url] options:0 error:Nil];
     
      NSString *content=[dic objectForKey:@"content"];

    正则表达式

       NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"<[^>]*>| "
                                                                                        options:0
                                                                                          error:nil];
        
        content=[regularExpretion stringByReplacingMatchesInString:content options:NSMatchingReportProgress range:NSMakeRange(0, content.length) withTemplate:@"-"];//替换所有html和换行匹配元素为"-"
        
        regularExpretion=[NSRegularExpression regularExpressionWithPattern:@"-{1,}" options:0 error:nil] ;
         content=[regularExpretion stringByReplacingMatchesInString:content options:NSMatchingReportProgress range:NSMakeRange(0, content.length) withTemplate:@"-"];//把多个"-"匹配为一个"-"
        
        //根据"-"分割到数组
         NSArray *arr=[NSArray array];
        content=[NSString stringWithString:content];
         arr =  [content componentsSeparatedByString:@"-"];
        NSMutableArray *marr=[NSMutableArray arrayWithArray:arr];
        [marr removeObject:@""];
        for (NSString *str in marr) {
               NSLog(@"呵呵-------------%@",str);
            
        }

    去除字符串中所有得空格及控制字符:

    str = [str stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet ]];

  • 相关阅读:
    项目管理【38】 | 项目人力资源管理-管理项目团队
    转:模型蒸馏,教师学生模型
    转:pytorch 中forward 的用法与解释说明
    KNN, sklearn
    转:matplotlib, 去除plt.savefig()的白边
    转:Latex 表格 合并行/列
    转:LaTeX xcolor颜色介绍
    余弦相似性,cos距离函数
    python confusion matrix 混淆矩阵
    转:Tmux 使用教程
  • 原文地址:https://www.cnblogs.com/huntaiji/p/3513172.html
Copyright © 2011-2022 走看看