zoukankan      html  css  js  c++  java
  • 学习进度-16 python爬虫

    爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取

     从百度可以看出来 爬虫与python关系很紧密,

    爬虫的目标对象也很丰富,不论是文字、图片、视频,任何结构化非结构化的数据爬虫都可以爬取,爬虫经过发展,也衍生出了各种爬虫类型:

    通用网络爬虫:爬取对象从一些种子 URL 扩充到整个 Web,搜索引擎干的就是这些事

    垂直网络爬虫:针对特定领域主题进行爬取,比如专门爬取小说目录以及章节的垂直爬虫

    增量网络爬虫:对已经抓取的网页进行实时更新

    深层网络爬虫:爬取一些需要用户提交关键词才能获得的 Web 页面

    要爬虫必须掌握:
    网页的结构是HTML,爬虫的目标就是解析HTML,获取目标字段并保存
    客户端展现的网页由浏览器渲染,客户端和服务端的信息交互依靠HTTP协议

    爬虫得步骤为:

    模拟请求网页资源

    从HTML提取目标元素

    数据持久化

    例如:

    import requests
    
    from bs4 import BeautifulSoup
    
    target_url = 'http://www.baidu.com/s?wd=爬虫'
    
    # 第一步 发起一个GET请求
    res = requests.get(target_url)
    
    # 第二步 提取HTML并解析想获取的数据 比如获取 title
    soup = BeautifulSoup(res.text, "lxml")
    # 输出 soup.title.text
    title = soup.title.text
    
    # 第三步 持久化 比如保存到本地
    with open('title.txt', 'w') as fp:
        fp.write(title)

    这就是一个简单得爬虫

    参考网址:https://www.jianshu.com/p/c92dae931098

  • 相关阅读:
    谁知道怎么获得客户端的语系,不是encoding哦
    如何动态控制弹出窗体的大小
    维权成功!
    KFC的mm在练习做圣代
    CICD自动化发版系统设计简介
    java IO (File类)
    StringBuffer
    Arrays和比较器
    java正则
    Math和Random类
  • 原文地址:https://www.cnblogs.com/zhaoxinhui/p/12321013.html
Copyright © 2011-2022 走看看