zoukankan      html  css  js  c++  java
  • nodeJs简单版爬虫

    爬虫,以一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
    Robots.txt是一个文本文件,robots.txt是一个协议,不是一个命令。
    Robots.txt是爬虫要查看的第一个文件,Robots.txt文件告诉爬虫在服务器上什么文件可以被查看,搜索机器人就会按照该文件中的内容来确定访问范围。
    没有Robots可以爬所有东西。
    let express = require("express");
    let app = express();
    let request = require("request");
    let cheerio = require("cheerio");
    app.get(
    "/",function(req,res){ request("https://www.w3ctech.com/topic/256",function(err,rps,body){ console.log(body); res.end(body); }); }); app.listen(3000);

    使用npm下载express、request、cheerio。

    request是关键,它可以获取目标网页的静态资源信息。

    cheerio可以让获取到的html转换成jq一样操作,方便获取节点信息。

    如果要复杂的爬虫,就要正则加递归,不断获取目标链接下关联链接的所有信息。

    还有如果robots.txt的内容被爬了,一般来说是犯法的,当然用来牟利一定就是犯法的。

  • 相关阅读:
    请求页面
    获取iframe内的元素
    jquery 判断checkbox是否被选中问题
    bootStrap 模板地址
    content
    基于JS的文本验证
    canvas 移动光速特效-
    Swift 语法
    Xcode 8 Swift 类似插件方法
    js整频滚动展示效果(函数节流鼠标滚轮事件)
  • 原文地址:https://www.cnblogs.com/zhangzhicheng/p/8424663.html
Copyright © 2011-2022 走看看