python爬虫练习2——豆瓣读书

豆瓣网站禁止了爬虫爬取，需要对其进行简单的反爬虫处理后才可进行提取。

https://book.douban.com/robots.txt

F12，找到 User-agent ，在爬虫程序中进行添加。

import requests
import re

for i in range (1,5):
    url = 'https://book.douban.com/series/39838?page='+str(i)
    ua = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'}
    
    print('第'+str(i)+'页：',url)
    r =  requests.get(url ,headers = ua , timeout = 30)
    
    pat = 'title=(.*?)onclick'
    til = re.compile(pat,re.S).findall(r.text)
    print(til)
    print('---------------')

看着比较乱，我们进行加工处理：

import requests
import re

for i in range (1,5):
    url = 'https://book.douban.com/series/39838?page='+str(i)
    ua = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'}
    
    print('第'+str(i)+'页：',url)
    r =  requests.get(url ,headers = ua , timeout = 30)
    
    pat = 'title=(.*?)onclick'
    til = re.compile(pat,re.S).findall(r.text)
    #print(til)

    for item in til:
        
        print(str(item))
        print('--------------')

这样就好多了

查看全文

相关阅读:
WisDom .net开发框架设计 2
多线程处理大数组
 C#核心语法
 怎样控制与复制相同的功能
 SQL 内存数据库的细节
 验证编辑方法(Edit method)和编辑视图(Edit view)
上传图片检测其是否为真实的图片防范病毒上传至服务器
 chrome切换hosts插件 hostsadmin
程序托盘图标+右键弹出菜单
 30多年程序员生涯经验总结(成功源自于失败中的学习；失败则是因为容忍错误的横行)

原文地址：https://www.cnblogs.com/adam012019/p/15157396.html