zoukankan html css js c++ java

nodeJs简单版爬虫

爬虫，以一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
Robots.txt是一个文本文件，robots.txt是一个协议，不是一个命令。
Robots.txt是爬虫要查看的第一个文件，Robots.txt文件告诉爬虫在服务器上什么文件可以被查看，搜索机器人就会按照该文件中的内容来确定访问范围。
没有Robots可以爬所有东西。

let express = require("express");
let app = express();
let request = require("request");
let cheerio = require("cheerio");

app.get("/",function(req,res){
    request("https://www.w3ctech.com/topic/256",function(err,rps,body){
            console.log(body);
            res.end(body);
    });
});

app.listen(3000);

使用npm下载express、request、cheerio。

request是关键，它可以获取目标网页的静态资源信息。

cheerio可以让获取到的html转换成jq一样操作，方便获取节点信息。

如果要复杂的爬虫，就要正则加递归，不断获取目标链接下关联链接的所有信息。

还有如果robots.txt的内容被爬了，一般来说是犯法的，当然用来牟利一定就是犯法的。

查看全文

相关阅读:
使用 RestTemplateBuilder.build() 代替 new RestTemplate()
R2DBC加入Reactive基金会
 Spring Data 2020.0.1 发布
 前后端分离,注册和登录。涉及Oauth2 Password-Flow 授权方式
 OAuth2 Google、Github自定义登录页面
 Authorization-Server入门(二)
Authorization-Server入门(一)
Google或Github 登录Web应用
使用SpringBoot发送Gmail和QQ邮箱
 理解同步/异步和阻塞/非阻塞的区别

原文地址：https://www.cnblogs.com/zhangzhicheng/p/8424663.html