C++ 提取网页内容系列之三

zoukankan html css js c++ java

C++ 提取网页内容系列之三
标题: C++ 提取网页内容系列
作者: itdef
链接: http://www.cnblogs.com/itdef/p/4171659.html

欢迎转帖请保持文本完整并注明出处

这次继续下载网页后对其中内容的分析

使用tr1(c++预备标准库)中的正则式
void ContentSearchMainRecommend(const string& content) { string text = content; string regString( "首页大推','([^']*)'" ); string regSubString("<strong class=\"strong color_orange\">([^<]*)</strong>"); regex regExpress(regString); regex regSubExpress(regSubString); //string::size_type pos = content.find(strSearch); smatch ms; // 判断是否全行匹配 while(regex_search(text, ms, regExpress)) { string strResult; if(ms.size() == 2) { strResult = ms.str(1).c_str(); } cout << "首页大推:\t" << strResult << "\t\t"; text = ms.suffix().str(); if(regex_search(text, ms, regSubExpress)) { if(ms.size() == 2) { cout << ms.str(1).c_str() << endl; } }else { cout << "search substring error" << endl; break; } } return ; }
正则式的内容如果不熟悉的话可以参考网络上流传的<30分钟正则式入门>

但是对于450K的网页使用正则式匹配似乎比直接搜索要慢上不少

// 待续
作者: itdef
欢迎转帖请保持文本完整并注明出处
技术博客 http://www.cnblogs.com/itdef/
B站算法视频题解
https://space.bilibili.com/18508846
qq 151435887
gitee https://gitee.com/def/
欢迎c c++ 算法爱好者 windows驱动爱好者服务器程序员沟通交流
如果觉得不错，欢迎点赞，你的鼓励就是我的动力
查看全文

相关阅读:
JVM系列六（自定义插入式注解器）.
JVM系列五（Javac 字节码编译器）.
2019 — 求不得，放不下
 Mybatis 条件判断单双引号解析问题
 JVM系列四（对象分配策略）.
JVM系列三（垃圾收集器）.
Spring MVC -- Spring Tool Suite和Maven（安装Tomcat、JDK）
Spring MVC -- 单元测试和集成测试
 Spring MVC -- 下载文件
 Spring MVC -- 上传文件

原文地址：https://www.cnblogs.com/itdef/p/4171659.html