zoukankan      html  css  js  c++  java
  • 一个简单的百度爬虫

    0x00

      之前不知道python怎么爬取百度的内容,因为看到有很多参数,直接复制下来改变wd参数总是会出现各种奇怪的问题

      昨晚经程师傅指点才知道原来很多参数并不是必要的。今天才搜了下百度的各个参数的意义,以前居然没想到去搜一下百度的参数,感觉自己真是太愚钝了

      于是,今天写了个小小的百度爬虫

    0x01

      代码:

    #!/usr/bin/python
    # -*- coding:utf-8 -*-
    # 昏鸦
    
    import requests
    import re
    import sys
    
    def get_baidu(s,page=5):
    	pattern = "data-tools='{"title":"(.*?)","url":"(.*?)""
    
    	for p in xrange(0,page*10+1,10):
    		req = "http://www.baidu.com/s?wd={}&pn={}&cl=3".format(s,p)
    		res = requests.get(url=req).text
    		reg = re.findall(pattern,res)
    
    		for i in xrange(len(reg)):
    			title = reg[i][0]
    			url = requests.get(url=reg[i][1]).url
    			print title+'
    '+url+'
    
    '
    
    if __name__=='__main__':
    	get_baidu(sys.argv[1],int(sys.argv[2]))
    

      

      结果:

        

    0x02

      只爬取了百度出来的标题和URL链接,默认爬取前5页

  • 相关阅读:
    JLOI2012:时间流逝
    bzoj 5217: [Lydsy2017省队十连测]航海舰队
    bzoj 4894: 天赋
    bzoj 4870: [Shoi2017]组合数问题
    bzoj 1558: [JSOI2009]等差数列
    bzoj 4945: [Noi2017]游戏
    bzoj 2142: 礼物
    bzoj 5248: [2018多省省队联测]一双木棋
    51nod2383
    codeforces24D
  • 原文地址:https://www.cnblogs.com/hun-ya/p/8734193.html
Copyright © 2011-2022 走看看