zoukankan      html  css  js  c++  java
  • 爬虫实战1 京东

    url="https://item.jd.com/100012881854.html"
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers = kv)
    print(r.status_code)
    print(r.encoding)
    print(r.text[:1000])

    200
    utf-8
    <!DOCTYPE HTML>
    <html lang="zh-CN">
    <head>
    <!--yushou-->
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>【魅族17 Pro】魅族17 Pro 8GB+128GB 定白 骁龙865 旗舰5G手机 27W无线充 6400W后置主摄 90Hz屏幕 支持NFC 智能游戏手机【行情 报价 价格 评测】-京东</title>
    <meta name="keywords" content="MEIZU17 Pro,魅族17 Pro,魅族17 Pro报价,MEIZU17 Pro报价"/>
    <meta name="description" content="【魅族17 Pro】京东JD.COM提供魅族17 Pro正品行货,并包括MEIZU17 Pro网购指南,以及魅族17 Pro图片、17 Pro参数、17 Pro评论、17 Pro心得、17 Pro技巧等信息,网购魅族17 Pro上京东,放心又轻松" />
    <meta name="format-detection" content="telephone=no">
    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/100012881854.html">
    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/100012881854.html">
    <meta http-equiv="X-UA-Compatible" content="IE=Edge">
    <link rel="canonical" href="//item.jd.com/100012881854.html"/>
    <link rel="dns-prefetch" href="//misc.360buyimg.com"/>
    <link rel="dns-prefetch" href="//s

    必须加kv,不然

     这是无法访问的

    回到京东界面

     因此 

    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers = kv)

    通过更改User-Agent字段就可以轻易骗过该网站。京东会从HTTP的头部判断这是一个爬虫请求还是一个网络请求,它可以拒绝爬虫请求。

    import requests
    def getHtmlText(url):
        try:
            kv = {'user-agent': 'Mozilla/5.0'}
            r = requests.get(url, headers=kv)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text[:500]
        except:
            return  '爬取失败'
    
    if __name__ == '__main__':
        url='https://item.jd.com/100012885246.html'
        print(getHtmlText(url))

    可以更换url,爬取不同网页信息

  • 相关阅读:
    C#中利用iTextSharp开发二维码防伪标签(1)
    delphi 数据库中Connection与Query连接数量问题思考
    cPanel 安装方法
    招商行用卡人工服务方式
    软链接的创建和查看
    zencart低版本由php5.2.17升级PHP5.3环境下错误及解决方案
    EXCEL应用:高级筛选里的条件或和与的条件怎么写 例:不包含,包含等
    array_walk与array_map 的不同 array_filter
    zen cart global $db 这噶哒
    hdu 5655 CA Loves Stick
  • 原文地址:https://www.cnblogs.com/tingtin/p/12904594.html
Copyright © 2011-2022 走看看