引言
万事开头难!勤而行之!
实现思路
爬虫就是抓取网页数据的程序
爬虫的实现流程就三部分:获取网页丶解析网页丶储存数据
1.首先通过Requests库向指定的URl地址发送HTTP请求,从而把整个网页的数据爬取下来,
2.接着通过BeautifulSoup模块对页面数据进行分析并对目标数据定位,从而将需要的信息抽取出来
3.最后通过文件操作将文件储存到指定的文本文件中
#安装库 pip install 第三方库名 ##导入模块 import requests from bs4 import BeautifulSoup ##分析url url = "http://www.cnblogs.com/cangshuchirou/default.html?page=" ##模拟浏览器浏览服务器 user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;)" headers = { "User-Agent" : user_agent } ##拼接url for i in range( 1,5 ): urlf = url + str( i ) print(urlf) ## 将请求内容保存在res变量中 res = requests.get( urlf, headers = headers ) ## 产生解析网页的一个对象soup soup = BeautifulSoup( res.text, "lxml" ) ## 正则抽取数据 titles = soup.find_all( 'a', {'class' : 'postTitle2'} ) ## 循环数据保存指定数据到指定的文件中 for item in titles: title = item.text.strip() link = item['href'] with open( "d:/cang_shu_blog.txt" , "a+" ) as f: f.write(title + " " + link +" ")
结果如下:
0CRM https://www.cnblogs.com/cangshuchirou/p/9133123.html 0内置常量 https://www.cnblogs.com/cangshuchirou/p/9125039.html 0python100练 https://www.cnblogs.com/cangshuchirou/p/9112872.html 0python内置函数 https://www.cnblogs.com/cangshuchirou/p/9108313.html 0python之禅 https://www.cnblogs.com/cangshuchirou/p/9047349.html 0Django https://www.cnblogs.com/cangshuchirou/p/8963286.html 0pymsql入门 https://www.cnblogs.com/cangshuchirou/p/8952726.html 0jQuery事件 https://www.cnblogs.com/cangshuchirou/p/8921037.html 0数据库(索引) https://www.cnblogs.com/cangshuchirou/p/8780786.html 0算法基础知识 https://www.cnblogs.com/cangshuchirou/p/8780267.html 0数据库(查询专项) https://www.cnblogs.com/cangshuchirou/p/8717620.html 0数据库(所有人都坐下!这是基本操作!) https://www.cnblogs.com/cangshuchirou/p/8710319.html 0协程 https://www.cnblogs.com/cangshuchirou/p/8696330.html 0IO模型 https://www.cnblogs.com/cangshuchirou/p/8696315.html 030个python常用技巧 https://www.cnblogs.com/cangshuchirou/p/8678197.html 0线程 https://www.cnblogs.com/cangshuchirou/p/8671632.html 0管道 https://www.cnblogs.com/cangshuchirou/p/8665167.html 0多进程 https://www.cnblogs.com/cangshuchirou/p/8651478.html 0进程 https://www.cnblogs.com/cangshuchirou/p/8631239.html 0验证客户端的一致性 https://www.cnblogs.com/cangshuchirou/p/8624480.html 0黏包现象 https://www.cnblogs.com/cangshuchirou/p/8617206.html 0socket模块 https://www.cnblogs.com/cangshuchirou/p/8609837.html 0网络编程基础 https://www.cnblogs.com/cangshuchirou/p/8602689.html 0面试题 https://www.cnblogs.com/cangshuchirou/p/8585078.html 0面试题合集 https://www.cnblogs.com/cangshuchirou/p/8581611.html 0异常 https://www.cnblogs.com/cangshuchirou/p/8576285.html 0三个重要的模块loggning,hashlib,configparse https://www.cnblogs.com/cangshuchirou/p/8570064.html 0面向对象进阶 https://www.cnblogs.com/cangshuchirou/p/8559046.html 0单例模式 https://www.cnblogs.com/cangshuchirou/p/8557000.html 0反射 https://www.cnblogs.com/cangshuchirou/p/8551007.html 0封装 https://www.cnblogs.com/cangshuchirou/p/8549636.html 0开发规范 https://www.cnblogs.com/cangshuchirou/p/8530447.html 0继承,多态,接口 https://www.cnblogs.com/cangshuchirou/p/8530417.html 0面向对象多态及其继承 https://www.cnblogs.com/cangshuchirou/p/8528948.html 0面向对象三大特性 https://www.cnblogs.com/cangshuchirou/p/8522417.html 0模块的出生 https://www.cnblogs.com/cangshuchirou/p/8493361.html 0python的一些常用标准库 https://www.cnblogs.com/cangshuchirou/p/8493234.html 0re模块 https://www.cnblogs.com/cangshuchirou/p/8484630.html 0random模块 https://www.cnblogs.com/cangshuchirou/p/8483743.html 0集合文件操作 https://www.cnblogs.com/cangshuchirou/p/8392062.html 0制作python游戏(一)环境搭建 https://www.cnblogs.com/cangshuchirou/p/8433589.html 0迭代器和生成器 https://www.cnblogs.com/cangshuchirou/p/8422615.html 0py2与py3差别 https://www.cnblogs.com/cangshuchirou/p/8423855.html 0装饰器 https://www.cnblogs.com/cangshuchirou/p/8406796.html 0函数基础 https://www.cnblogs.com/cangshuchirou/p/8399879.html 0深浅copy https://www.cnblogs.com/cangshuchirou/p/8377698.html 0字符串 https://www.cnblogs.com/cangshuchirou/p/8361343.html 0range https://www.cnblogs.com/cangshuchirou/p/8341872.html 0join的基本用法和while else 特性 https://www.cnblogs.com/cangshuchirou/p/8341851.html 0字典的增删改查 https://www.cnblogs.com/cangshuchirou/p/8351337.html 0python基础数据型初探 https://www.cnblogs.com/cangshuchirou/p/8337035.html 0python基础列表元组用法 https://www.cnblogs.com/cangshuchirou/p/8341661.html 0python以及计算机原理基础简要摘录 https://www.cnblogs.com/cangshuchirou/p/8329649.html 0python bif 如何自学 https://www.cnblogs.com/cangshuchirou/p/8332100.html 0基本数据类型相互转换及操作方法 https://www.cnblogs.com/cangshuchirou/p/8351714.html 0python萌新应知应会 https://www.cnblogs.com/cangshuchirou/p/8319132.html