zoukankan      html  css  js  c++  java
  • python网络爬虫day1

    python爬虫真的很方便,自己不能忽视的问题就是字符编码的问题,一直想腾出时间来看,一直没有时间。明天开始看吧。

    今天是学习python爬虫的第一天,从B站上搜到的,可惜可惜。

    import  requests
    
    def getHtmlText(url):
        try:
            r=requests.get(url,timeout=30)
            r.raise_for_status()
            r.encoding=r.apparent_encoding
            return  r.text
        except:
            return "产生异常"
    
    
    url="http://baidu.com"
    print(getHtmlText(url))

    一开始的代码很简单,就是爬取百度的内容。百度做了反爬虫的处理,哈哈哈哈。

    import requests
    kv={'user-agent':"Mozilla/5.0"}
    r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
    print(r.status_code)
    print(r.text)

    爬亚马逊,亚马逊对爬虫做了限制处理,直接爬取会出错,令爬虫模拟浏览器。

    r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
    import requests
    kv={"wd":'python'}
    r=requests.get("https://www.baidu.com/s",params=kv)
    print(r.status_code)
    print(r.request.url)

    爬取百度关键字的搜素内容,难度不大,使用params参数就行了。

     

  • 相关阅读:
    hdu5608 function
    Codeforces Round #535 (Div. 3) 解题报告
    HDU4746 Mophues
    HDU5663 Hillan and the girl
    AtCoder Beginner Contest 117 解题报告
    GDOI2018D2T1 谈笑风生
    BZOJ4018: 小Q的幻想之乡
    牛客寒假算法基础集训营6 解题报告
    win32拖拽编程
    项目开发中的贝塞尔曲线
  • 原文地址:https://www.cnblogs.com/bianzhuo/p/9886209.html
Copyright © 2011-2022 走看看