zoukankan html css js c++ java

淘宝爬虫

import  requests
import re
from urllib import request
import urllib.request
import pymysql
import time
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="123456",db="world")
def get_url():
    for i in  range(5,11):
        headers1 = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'
        }
        url='https://s.taobao.com/search?spm=a21bo.2017.201856-fline.2.1b3311d9sSXobt&q=%E5%9B%9B%E4%BB%B6%E5%A5%97&s='+str(i*44)#链接入口
        response1 = requests.get(url, headers=headers1)
        data = response1.text
        bt_1 = '"raw_title":"(.*?)","pic_url"'
        tp_1='"pic_url":"//(.*?)"'
        spid_1='"nid":"(.*?)","category"'
        xl_1='"view_sales":"(.*?)"'
        dm_1= '"nick"."(.*?)"'
        jg_1='"view_price"."(.*?)","view_fee"'
        user_id1='"user_id":"(.*?)","nick":".*?"'
        comment_url1='"detail_url":"(.*?)"'
        bt = re.compile(bt_1).findall(str(data))
        tp=re.compile(tp_1).findall(str(data))
        spid=re.compile(spid_1).findall(str(data))
        print(spid)
        xl=re.compile(xl_1).findall(str(data))
        dm=re.compile(dm_1).findall(str(data))
        jg=re.compile(jg_1).findall(str(data))
        for j in range(0,len(bt)):
            bt1=bt[j]
            tp1='https://'+tp[j]
            spid1=spid[j]
            xl1=xl[j]
            dm1=dm[j]
            headers = {
                    'Referer': 'https://item.taobao.com/item.htm?spm=a1z10.5-c-s.w4002-18518582505.20.6d887041nVz3D2&id='+spid1 ,#必须加上这个
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'
                }
            response = requests.get(
                    'https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId='+spid1+'&sellerId=102291787&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,originalPrice,tradeContract&callback=onSibRequestSuccess',#这个网址藏了销量数据
                    headers=headers)
            data3 = response.text
            sold = '"sellCountDO":{"sellCount":"(.*?)","success":true}'#正则匹配销量
            soldTotalCount = re.compile(sold).findall(data3)
            print('第' + str(i+1) + "页" + '第' + str(j+1) + '个')
            print(bt1)
            print(spid1)
            print(soldTotalCount)
            jg1 = jg[j]
            sql = "insert into taobaopc1(bt,tp,spid,xl,dm,jg)values('" + bt1 + "','" + tp1 + "','" + spid1 + "','" + soldTotalCount1 + "','" + dm1 + "','" + jg1 + "')"
            print(sql)
            conn.query(sql)
            conn.commit()

查看全文

相关阅读:
屏蔽2003:在系统启动时至少有一个服务或驱动程序产生错误
 C#中有关string和byte[]转换的问题
 如何控制winform程序只能打开一个呢？
ArrayList的使用方法【转载】
ASP.NET中ajaX学习记录
 C#去除字符串空格的几种方法【转载】
C# 中2,10,16进制及其ASCII码之间转化
 vc++下char数组赋值乱码问题
 c#关机时自动退出程序
 Android入门前言(一)之Android应用开发入门五问 (转自：http://blog.csdn.net/android_tutor/)

原文地址：https://www.cnblogs.com/snackpython/p/10329298.html