zoukankan      html  css  js  c++  java
  • Python 爬虫入门

    爬虫,也就是网络爬虫。将互联网当做大的蜘蛛网,我们的程序就是模拟蜘蛛去获取蜘蛛网上的信息。

    翻译为计算机语言就是:  模拟浏览器发送请求(配置好相应的请求头, url, cookies)

                解析拿到的html, dom,做数据填充, 固定的数据格式

    所以在写爬虫之前需要明确:爬取目标, 爬取后要整理成什么样的数据结构

      需要一些浏览器的基本知识,如F12,network,页面元素,cookie

    然后就来写爬虫(前提是python环境已经搭建好):

    醉醉简单的爬虫:

    import urllib

    def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

    html = getHtml("。。。。。")

    print html
  • 相关阅读:
    bug
    UIFont
    OC
    iOS 之 多线程一
    OC 之 const
    我的读书单
    算法之回文数判断
    排序算法 之 一
    isEqual
    xcode 必用插件二
  • 原文地址:https://www.cnblogs.com/zslb/p/8352656.html
Copyright © 2011-2022 走看看