C++ 提取网页内容系列之五整合爬取豆瓣读书

zoukankan html css js c++ java

C++ 提取网页内容系列之五整合爬取豆瓣读书

工作太忙没有时间细化了就说说主要内容吧

下载和分析漫画是分开的

下载豆瓣漫画页面是使用之前的文章的代码

见http://www.cnblogs.com/itdef/p/4171179.html

http://www.cnblogs.com/itdef/p/4081963.html

注意豆瓣网是https

下载后进行页面分析

fstream fs(szfileName);
stringstream ss; // 创建字符串流对象
ss << fs.rdbuf(); // 把文件流中的字符输入到字符串流中
fs.close();
string str = ss.str(); // 获取流中的字符串

页面不大载入到string中如果是UTF8 还需要进行GBK到UTF8的转换

然后使用正则摘出每个漫画索引信息存入vector<string>

string strRegex = "<li class=\"subject-item\">.*?</li>";

vector<string> vstr;
regex regExpress(strRegex);
smatch ms;
try {
while (regex_search(strText, ms, regExpress))
{
for (string::size_type i = 0; i < ms.size(); ++i)
{
vstr.push_back(ms.str(i));
}
strText = ms.suffix().str();
}
}
catch (exception& e)
{
cerr << e.what() << endl;
return vstr;
}

然后在对每本书的信息进行分析解析出书本名简介评分等

由于这些信息都是有固定标签用正则反而麻烦所以使用的字符串查找

basic_string <char>::size_type keyWordStart = s.find("title=\"");
basic_string <char>::size_type keyWordEnd = s.find("\"", keyWordStart + sizeof("title=\"")-1);

if ((keyWordStart != string::npos) && (keyWordEnd != string::npos) && (keyWordEnd > keyWordStart))
{
string strKeyWord = s.substr(keyWordStart+ sizeof("title=\"") - 1, keyWordEnd - keyWordStart- sizeof("title=\"")+1);
cout << strKeyWord << endl;
}

最后结果如图

作者: itdef
欢迎转帖请保持文本完整并注明出处
技术博客 http://www.cnblogs.com/itdef/
B站算法视频题解
https://space.bilibili.com/18508846
qq 151435887
gitee https://gitee.com/def/
欢迎c c++ 算法爱好者 windows驱动爱好者服务器程序员沟通交流
如果觉得不错，欢迎点赞，你的鼓励就是我的动力

查看全文

相关阅读:
atitit.组件化事件化的编程模型--服务端控件(1)---------服务端控件与标签的关系
 atitit. 浏览器插件控件 applet 的部署，签名总结浏览器插件控件的签名安全机制o9o
Atitit. 解压缩zip文件的实现最佳实践 java c# .net php
atitit. applet 浏览器插件控件的环境，开发，提示总结o9o
Atitit..文件上传组件选型and最佳实践总结(3)----断点续传控件的实现
 Atitit..文件上传组件选型and最佳实践总结(2)----断点续传
 Atitit.guice3 ioc 最佳实践 o9o
Atitit. C# java 的api 目录封装结构映射总结
 atitit. 统计功能框架的最佳实践(1)---- on hibernate criteria
Atitit.Hibernate中Criteria 使用总结and 关联查询 and 按照子对象查询 o9o

原文地址：https://www.cnblogs.com/itdef/p/5951477.html

C++ 提取网页内容系列之五 整合爬取豆瓣读书

C++ 提取网页内容系列之五整合爬取豆瓣读书