zoukankan      html  css  js  c++  java
  • 想知道「双十一」淘宝商家销售数据?快来看看!!!

    爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

    养成好习惯:文中文末的小广告点一点

    爬取淘宝店家数据信息

    • 爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

      • 一、登录淘宝,获取Cookies

      • 二、输入关键字,翻动页码,查看源码以及回应内容的变化。并请求数据

      • 三、分析数据网页源码,获取数据

      • 四、存储数据,并将数据按照销量降序排列


    前天接一个爬取淘宝商家(自行车)信息的请求,要求数据按照其销售量排行。

    完成该请求后,爬取数据(李宁卫衣)如下:

    接下来看如何实现的?

    首先打开淘宝网:https://www.taobao.com/,在搜索栏输入自行车,结果发现页面转跳到https://login.taobao.com/member/login.jhtml 淘宝登录页面,要求登录才能进行关键字搜索获取数据。(需要登录的时候应当想到cookies)

    cookies 及其用处:
    当我们登录某网站时,服务器会生成一个cookies,包含有用户登录等信息,与当前账号绑定,浏览器将此cookies存储到。下一次,浏览器带着cookies访问网站,就不需要在输入账号密码。注意cookies是有时效性的。
    

    所以,目标明确,第一步,获取用户登录的cookies

    一、登录淘宝,获取Cookies

    需要登录淘宝页面获取cookies,才能执行后续操作。而模拟登录有两种方法:

    • 搞清淘宝登录机制,修改参数登录。

    • 使用selenium调用webdriver模块,模拟人真实的操作浏览器。

    方法一:直接看源码+备注

    import requests
    import re
    import json
    import time
    import random
    
    
    check_url = 'https://login.taobao.com/newlogin/account/check.do?appName=taobao&fromSite=0'
    headers = {
        'origin':'https://login.taobao.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
        # 标记了请求从什么设备,什么浏览器上发出
    }
    
    
    session  = requests.session()
    login_url = 'https://login.taobao.com/newlogin/login.do'
    
    
    #自己手动登录一次,在参数页面把所有参数复制过来替换掉,看下图
    Login_Data = {
        'loginId': '****',  
        'password2': '*****',
        'keepLogin': 'true',
        'ua': '***',
        'umidGetStatusVal': '255',
        'screenPixel': '1536x864',
        'navlanguage': 'zh-CN',
        'navUserAgent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
        'navPlatform': 'Win32',
        'appName': 'taobao',
        'appEntrance': 'taobao_pc',
        '_csrf_token': '*****',
        'umidToken': '****',
        'hsiz': '****',
        'bizParams':'',
        'style': 'default',
        'appkey': '00000000',
        'from': 'tbTop',
        'isMobile': 'false',
        'lang': 'zh_CN',
        'returnUrl': 'https://www.taobao.com/',
        'fromSite': '0',
    }
    login_res = session.post(login_url,headers=headers,data=Login_Data) #带着这些参数再登录一次爬取数据
    
    
    #获取st码申请地址
    token_json = login_res.json()
    st_url = token_json['content']['data']['asyncUrls'][0]  #st码的申请地址
    print('验证用户名和密码成功')
    
    
    #通过st码申请地址获取st码
    st_res = requests.get(st_url,headers=headers)
    st_code_text = st_res.text
    st_code = st_code_text[579:-270]  #获取st码,自己发现的规律,可以这么提取,也可以使用正则表达式
    print('获取st码成功,st码:{}'.format(st_code))
    
    
    
    
    #获取登录跳转链接
    res_st = session.get('https://login.taobao.com/member/vst.htm?st={}'.format(st_code) , headers=headers)
    my_taobao = re.search(r'top.location.href = "(.*?)"', res_st.text)
    print('登录淘宝成功,跳转链接:{}'.format(my_taobao.group(1)))
    my_taobao_url = my_taobao.group(1)
    
    
    #登录
    res_login = session.get(my_taobao_url, headers=headers)
    nick_name = re.search(r'<input id="mtb-nickname" type="hidden" value="(.*?)"/>', res_login.text)
    print('登录淘宝成功,你的用户名是:{}'.format(nick_name.group(1)))
    username = nick_name.group(1)
    
    
    # 获取cookies,将cookies转成字典,再将字典转成字符串,保存到文件夹中
    cookies_ditc = requests.utils.dict_from_cookiejar(session.cookies)
    cookies_str = json.dumps(cookies_ditc)
    f = open(r'C:Users13426Desktopcookies.txt','w',encoding='utf-8')
    f.write(cookies_str)
    print(cookies_str)  #cookies,具有时效性。
    print('cookie已经完成序列化')  
    f.close()
    
    
    
    在自行登录以后,把参数都复制到Data里替换掉代码中的data就可以。
    

    方法二:使用selenium调用webdriver模块(自己写的,所以解释详细点)

    前提是安装了Chorm driver插件

    Chorm插件下载地址:http://npm.taobao.org/mirrors/chromedriver/2.44/

    下载完成后,解压到python根目录下即可。

    driver可以模拟人在目标栏目输入,也可以模拟人对按钮进行点击。
    

    对登录页面以及源码进行分析:发现:

    帐号输入框对应:
    <input name="fm-login-id" type="text" class="fm-text" id="fm-login-id" tabindex="1" aria-label="会员名/邮箱/手机号" placeholder="会员名/邮箱/手机号" autocapitalize="off">
    密码输入框对应:
    <input name="fm-login-password" type="password" class="fm-text" id="fm-login-password" tabindex="2" aria-label="请输入登录密码" placeholder="请输入登录密码" maxlength="40" autocapitalize="off">
    登录按钮栏目对应:
    <button type="submit" tabindex="3" class="fm-button fm-submit password-login">登录</button>
    

    所以,代码如下:在账号密码框里输入内容,点击登录进行登录

    from selenium import webdriver#调用webdriver模块
    
    
    driver = webdriver.Chrome()#设置引擎为Chrome,模拟真实地打开一个浏览器
    driver.get('https://login.taobao.com/member/login.jhtml')  #打开这个链接
    time.sleep(1) #等待一秒钟,模拟真人操作
    
    
    
    
    ## 运行代码之前输入自己的账号和密码
    user = driver.find_element_by_name('fm-login-id')
    user.send_keys('这里输入自己的账号')  #在fm-login-id对应框中输入账号
    time.sleep(1)
    assistant = driver.find_element_by_name('fm-login-password')
    assistant.send_keys('这里输入自己的密码')
    time.sleep(1)
    submit = driver.find_element_by_class_name('fm-btn')  #点击登录按钮
    submit.click()#登录
    time.sleep(5)
    cookie_list = driver.get_cookies() #登录以后获取cookie
    cookies = {}
    print(len(cookie_list))
    for cookie in cookie_list:
        cookies[cookie['name']] = cookie['value']  #将cookies字典化
    print("已经成功的获取到用户登录的cookies")
    print(cookies)
    driver.close()
    
    注意,有时候登录时需要滑动滑块,手动滑动登录即可。
    

    到此用户操作所用cookies的已经获取,这时候就可以搜索关键字了

    二、输入关键字,翻动页码,查看源码以及回应内容的变化。并请求数据

    进入搜索页:https://s.taobao.com/search? 输入关键字,观察url变化

    我们发现q参数对应着搜索内容。然后翻动页面,来到第二页,观察url变化,发现变化的有s参数

    研究多个页面发现,url需要修改的参数只有q与s。

    在翻页的过程中,发现我们所需要的内容在Response的第0个回应中,即存在于Element中,所以只要获取到该网页的源码,就可以获取到数据。

    所以使用https://s.taobao.com/search?q=自行车&s=88 这个格式(q表示搜索的关键字,s*44代表页数)的链接就可以访问带有数据的源码。

    所以代码如下:

    headers = {'Host':'s.taobao.com',
               'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0',
               'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
               'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
               'Accept-Encoding':'gzip, deflate, br',
               'Connection':'keep-alive'
            }
    list_url = 'http://s.taobao.com/search?q=%(key)s&ie=utf8&s=%(pnum)d'
    
    
    for i in range(Page):
        pnum = i*44
        url = list_url%{'key':key,'pnum':pnum}
        print(url)
        res = requests.get(url,headers=headers,cookies=cookies)  #带有前面获取的cookies
    

    三、分析数据网页源码,获取数据

    这是我爬取的一个李宁卫衣的网页源码,发现重要信息保存在一个大字典:g_page_config中

    所以我们可以通过正则表达式获取这个大字典,然后逐一提取各数据。或者直接正则各数据提取,我们采用第二种方法。

    #创建正则表达式
    titles = '"raw_title":"(.*?)"'       #标题
    locations = '"item_loc":"(.*?)"'    #销售地
    sales = '"view_sales":"(.*?)人付款"' #销售量
    comments = '"comment_count":"(.*?)"'#评论数
    prices = '"view_price":"(.*?)"'     #销售价格
    nids = '"nid":"(.*?)"'          #这里需要nid,是因为商品的链接是需要这个参数的  
    
    
    
    
    #res.text表示网页源码,在其中匹配正则
    title = re.findall(titles,res.text)
    location = re.findall(locations,res.text)
    sale = re.findall(sales,res.text)
    comment = re.findall(comments,res.text)
    price = re.findall(prices,res.text)
    nid = re.findall(nids,res.text)
    
    
    

    到这里已经把所有有效数据存储到title,location等变量中。它们均为字符串列表

    四、存储数据,并将数据按照销量降序排列

    使用csv保存数据

    csv_file = open(r'文件保存路径','w',newline='',encoding='utf-8-sig')
    writer = csv.writer(csv_file)
    writer.writerow(['商品名称','销售地','销售量','评论数','销售价格','商品链接'])
    #后续写入即可
    
    
    

    因为要求数据要根据销量降序排列,而销量数据格式为字符串。分析源码,发现源码中销量的表示一般有’8000+’、‘1.6万+’、‘784’这几种表示。即如果销量小于10000,则按照 ‘具体数字’ 或 ‘具体数字+’ 这样表示,如’845’、‘3500+’,如果数据大于一万,则会在后续加个万字, 如’1.6万+’,‘5.8万’,强转为float时需要做判断:

    所以,通过条件判断语句和if else判断:

    sale[j] = sale[j]  if sale[j][-1] !='+'  else sale[j][:-1]  #判断最后一位是不是+,如果是,就删掉
    if sale[j][-1] == '万':
        data.append([ title[j],location[j],float(sale[j][:-1])*10000,comment[j],price[j],goods_url ]) #如果最后一位是万,去掉最后一位,乘以10000即可
    else:
        data.append([ title[j],location[j],float(sale[j]),comment[j],price[j],goods_url ])
    
    
    data.sort(key=itemgetter(2))  #按照第3个元素,即销量进行排序
    data.reverse()#按照销量进行排序
    
    
    

    还有一个发现就是,商品的链接与nid是有关系的,具体关系如下:

    goods_url = 'https://item.taobao.com/item.htm?id='+nid[j]+'&ns=1&abbucket=19#detail'
    
    
    

    到此代码已经分析完毕,源码如下,登录时修改自己的账号密码,以及文件的保存路径即可:

    import time
    import requests
    import json
    import re
    from selenium import webdriver#调用webdriver模块
    import csv
    from operator import itemgetter
    ## 在这里设置下爬取结果文件保存的路径
    csv_file = open(r'C:Users13426Desktopdemo.csv','w',newline='',encoding='utf-8-sig')
    writer = csv.writer(csv_file)
    
    
    driver = webdriver.Chrome()#设置引擎为Chrome,模拟真实地打开一个浏览器
    driver.get('https://login.taobao.com/member/login.jhtml')
    time.sleep(1)
    
    
    
    
    ## 运行代码之前输入自己的账号和密码
    user = driver.find_element_by_name('fm-login-id')
    user.send_keys('输入自己的账号')
    time.sleep(1)
    assistant = driver.find_element_by_name('fm-login-password')
    assistant.send_keys('输入自己的密码')
    time.sleep(1)
    submit = driver.find_element_by_class_name('fm-btn')
    submit.click()#登录
    time.sleep(5)
    cookie_list = driver.get_cookies()
    cookies = {}
    print(len(cookie_list))
    for cookie in cookie_list:
        cookies[cookie['name']] = cookie['value']
    print("已经成功的获取到用户登录的cookies")
    print(cookies)
    driver.close()
    
    
    
    
    
    
    headers = {'Host':'s.taobao.com',
               'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0',
               'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
               'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
               'Accept-Encoding':'gzip, deflate, br',
               'Connection':'keep-alive'
            }
    list_url = 'http://s.taobao.com/search?q=%(key)s&ie=utf8&s=%(pnum)d'
    
    
    titles = '"raw_title":"(.*?)"'       #标题
    locations = '"item_loc":"(.*?)"'    #销售地
    sales = '"view_sales":"(.*?)人付款"' #销售量
    comments = '"comment_count":"(.*?)"'#评论数
    prices = '"view_price":"(.*?)"'     #销售价格
    nids = '"nid":"(.*?)"'          #这里需要nid,是因为商品的链接是需要这个参数的  
    writer.writerow(['商品名称','销售地','销售量','评论数','销售价格','商品链接'])
    
    
    
    
    
    
    key = input('输入想要爬取的商品名称:')
    Page = 5 # 爬取的页数 ,可以自行修改
    data = []
    
    
    for i in range(Page):
        pnum = i*44
        url = list_url%{'key':key,'pnum':pnum}
        print(url)
        res = requests.get(url,headers=headers,cookies=cookies)
        html = res.text
    
    
    
    
        title = re.findall(titles,html)
        location = re.findall(locations,html)
        sale = re.findall(sales,html)
        comment = re.findall(comments,html)
        price = re.findall(prices,html)
        nid = re.findall(nids,html)
        for j in range(len(title)):
            goods_url = 'https://item.taobao.com/item.htm?id='+nid[j]+'&ns=1&abbucket=19#detail'
            sale[j] = sale[j]  if sale[j][-1] !='+'  else sale[j][:-1]
            if sale[j][-1] == '万':
                data.append([ title[j],location[j],float(sale[j][:-1])*10000,comment[j],price[j],goods_url ]) #如果最后一位是万,去掉最后一位,乘以10000即可
            else:
                data.append([ title[j],location[j],float(sale[j]),comment[j],price[j],goods_url ])
    
    
        print('-------Page%s 已经抓取完毕!--------
    
    '%(i+1))
        time.sleep(2)
    data.sort(key=itemgetter(2))
    data.reverse()#按照销量进行排序  
    for j in range(len(data)):
        writer.writerow(data[j])
    
    
    

    正文结束!!!!

    来一杯饮料放松放松

    欢迎关注公众号:Python爬虫数据分析挖掘,方便及时阅读最新文章

    记录学习python的点点滴滴;

    回复【开源源码】免费获取更多开源项目源码;

    公众号每日更新python知识和【免费】工具;

    本文已同步到【开源中国】、【腾讯云社区】、【CSDN】;

    耐得住寂寞,才能登得顶
    Gitee码云:https://gitee.com/lyc96/projects
  • 相关阅读:
    大数据集群实验环境搭建
    ORACLE 自治事物
    UNDO内存结构剖析
    事物深度解析
    UNDO
    SCN
    检查点队列
    WPS Excel启用正则表达式
    Python遍历目录下xlsx文件
    Python 字符串指定位置替换字符
  • 原文地址:https://www.cnblogs.com/chenlove/p/14038545.html
Copyright © 2011-2022 走看看