zoukankan      html  css  js  c++  java
  • python网络爬虫与信息提取 学习笔记day1

    Day1:

    安装python之后,为其配置requests第三方库,并爬取百度主页内容。

    语句解释:

    r.status_code检测请求的状态码,如果状态码为200,则说明访问成功,否则,则说明访问失败。

    注意Response对象的五个属性:

     

     

    爬取网页的通用代码框架:

    # -*- coding: utf-8 -*-
    
    """
    
    Spyder Editor
    
     
    
    This is a temporary script file.
    
    """
    
    import requests
    
     
    
    def getHTMLText(url):
    
        try:
    
            r=requests.get(url,timeout=30)
    
            r.raise_for_status()
    
            r.encoding = r.apparent_encoding
    
            return r.text
    
        except:
    
            return "产生异常"
    
       
    
    if __name__=="__main__":
    
        url="http://www.baidu.com"
    
        print(getHTMLText(url))
    

      

    HTTP URL的理解

             URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源

    http协议对资源的操作对应requests库的六个操作

    post:向URL POST一个字典,自动编码为form(表单);想URL POST一个字符串,自动编码为data

  • 相关阅读:
    词云
    结巴分词
    重复值处理
    异常值判断
    MySQL基本使用
    缺失值处理
    fit_transform和transform的区别
    sklearn学习笔记之简单线性回归
    图解机器学习
    Unity---UNet学习(1)----基本方法介绍
  • 原文地址:https://www.cnblogs.com/yezhaodan/p/7419192.html
Copyright © 2011-2022 走看看