zoukankan      html  css  js  c++  java
  • python 爬虫

    一、爬虫定义

        网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就        
        是URL。
                我们输入的url由三部分组成: 
             (1)protocol:第一部分就是协议,例如百度使用的就是https协议;
    
             (2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;
    
             (3)path:第三部分就是主机资源的具体地址,如目录和文件名等。
    
             网络爬虫就是根据这个URL来获取网页信息的。
    

    二、步骤

    (1)获取HTML页面,注意获取的HTML编码格式。我在其中install了 chardet,用于获取要解析页面的编码格式。

    response = request.urlopen("http://xxxxx")
        html = response.read()
        chardet = chardet.detect(html)
        print(charset)
        html = html.decode("utf-8")
    
    

    (2)解析html。
    使用BeautifulSoup:构建一个 BeautifulSoup 对象需要两个参数,第一个参数是将要解析的 HTML 文本字符串,第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。
    ”html.parser” 是Python内置的解析器

    soup = BeautifulSoup(html,"html.parser")
        print(soup.title.string )
        print(soup.p.string)
    
    
  • 相关阅读:
    闲着写了一个查看股票的程序
    Oracle10g正则表达式
    跨语言平台的RSA加密、解密、签名、验证算法的实现
    Base64转换:AQAB=65537,你知道为什么吗?
    无题
    07年了,新的一年又开始了
    简单生活
    近期关注
    闲话
    各大网站的WEB服务器分析
  • 原文地址:https://www.cnblogs.com/gloria-liu/p/9191460.html
Copyright © 2011-2022 走看看