zoukankan      html  css  js  c++  java
  • python爬虫入门笔记--爬虫简介

    、爬虫:写程序,然后去互联网上抓取数据的过程
    互联网:网,有好多a连接组成,王的节点就是每一个a链接,url(统一资源定位符)
    通用爬虫,聚焦爬虫
            通用爬虫:百度 360 搜狐 bing 。。。
            原理:
                    (1)抓取网页
                      (2) 采集数据
                    (3)数据处理
                    (4)提供检索服务
            爬虫:baiduspider
    通用爬虫如何抓取新网站?
             (1)主动提交url
               (2)设置友情链接
             (3)百度会和dns服务商合作,抓取新网站
    检索排名:竞价排名,根据pagerank值、访问量,点击量(seo)
    robots.txt
                如果不想让爬虫爬取,可以编写robots.txt,这个协议只是口头上的协议。自己写的爬虫程序不需要遵从。
              聚焦爬虫:
                    根据特定的需求,抓取指定的数据
                    思路?
                            代替浏览器上网!
                网页的特点:
                        (1)网页都有自己的唯一的url
                        (2)网页内容都是html结构
                         (3)使用的都是http,https协议
                爬取步骤:
                (1)给一个url
                (2)写程序,模拟访问浏览器url
                (3)解析内容,提取数据
              环境:windows,linux
               python3.6  64位
            Sublime   pycharm等
        课程内容:
                (1)使用到的库:urllib、requests、bs4.。。
                (2)解析网页内容的知识
                    正则表达式,bs4,xpath,jsonpath
                (3)涉及到动态html
                    selenium+phantomjs,chromeheadless
                (4)scrapy框架
                    高性能框架使用
                (5)scrapy-redis组件
                    redis,分布式爬虫
                (6)涉及到的爬虫-反爬虫--反反爬虫的一些内容
                    Ua ,代理,验证码,动态页面等

  • 相关阅读:
    接着上回,导包正确之后,出现javabean.Friend cannot be cast to java.util.List,的错误。找了很久。以为是User user0作为参数,改成了String username还是错误,看了看listFriend.jsp没有错误,我想会不会是包多了,导致类型复杂。最后发现包少了一个:
    c语言
    软链接和硬链接的联系和区别
    centos7怎么永久修改hosname
    虚拟机静态ip设置
    Centos、Ubuntu开启命令模式
    Kubernetes重要概念理解
    人生道路上,永远没有“容易”二字
    知识【英文】
    模板【kruskal重构树】
  • 原文地址:https://www.cnblogs.com/zhahu/p/11931425.html
Copyright © 2011-2022 走看看