寒假日报day18 - 走看看

zoukankan html css js c++ java

寒假日报day18

enmmm，今天困在了如何对知乎进行下拉操作上了，虽然可以用selenium操作，但我还不是很熟悉这个东西。。。。

首先啊，根据要求创建了数据库

首先，在知乎等网站进行初步爬取，

分析知乎的网页结构：

就是这里了，下面来整理具体位置：page.getHtml().xpath("//div[@class=Card]/div[@class=List-item]/div[@class=ContentItem]/h2/a/@href")

得到初步想要的结果：

经检验页面是对的。

下一步就是模拟下拉刷新，并获取更多的页面。（这一步好难啊。。。。正在查找相关视频和前辈的经验，但奈何用webmagic写爬虫的人实在是太稀缺了，我都想放弃改写python了。）

在下一步是进入详细页面对页面进行分词解析，

首先要把页面的内容下载下来（这一步是比较简单，但还没写）

其次进行数据分析，就是自动分词，以及这些;

查看全文

相关阅读:
Nginx 负载均衡
 wordpress 页面显示指定分类文章
 Linux 下 wordpress 无法安装插件
 在 Linux 上安装配置 BitTorrent Sync [转]
nagios 配置 check_traffic 流量监控模块（Server 端）
install nagios pnp4nagios on centos 6
bat 脚本处理windows 文件
 Mac 下重新安装配置ibm Lotus 邮箱
 Domino 邮箱服务器接收不存在的邮箱账号的邮件
 Linux 下统计Apache每分钟的并发数

原文地址：https://www.cnblogs.com/msdog/p/12296865.html

Copyright © 2011-2022 走看看