zoukankan      html  css  js  c++  java
  • 将自己的博客内容总结到一个文件中(爬虫知识练习)

    引言

    万事开头难!勤而行之!

    实现思路
    爬虫就是抓取网页数据的程序
    爬虫的实现流程就三部分:获取网页丶解析网页丶储存数据
    1.首先通过Requests库向指定的URl地址发送HTTP请求,从而把整个网页的数据爬取下来,
    2.接着通过BeautifulSoup模块对页面数据进行分析并对目标数据定位,从而将需要的信息抽取出来
    3.最后通过文件操作将文件储存到指定的文本文件中

    #安装库
    pip install 第三方库名
    
    ##导入模块
    import requests
    from bs4 import BeautifulSoup
    ##分析url
    url = "http://www.cnblogs.com/cangshuchirou/default.html?page="
    ##模拟浏览器浏览服务器
    user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;)"
    headers = { "User-Agent" : user_agent }
    ##拼接url
    for i in range( 1,5 ):
            urlf = url + str( i )
            print(urlf)
    ##        将请求内容保存在res变量中
            res = requests.get( urlf, headers = headers )
    ##        产生解析网页的一个对象soup
            soup = BeautifulSoup( res.text, "lxml" )
    ##        正则抽取数据
            titles = soup.find_all( 'a', {'class' : 'postTitle2'} )
    ##        循环数据保存指定数据到指定的文件中
            for item in titles:
                    title = item.text.strip()
                    link = item['href']
                    
                    with open( "d:/cang_shu_blog.txt" , "a+" ) as f:
                            f.write(title + "
    " + link +"
    ")
    

      

    结果如下:

    0CRM
    https://www.cnblogs.com/cangshuchirou/p/9133123.html
    0内置常量
    https://www.cnblogs.com/cangshuchirou/p/9125039.html
    0python100练
    https://www.cnblogs.com/cangshuchirou/p/9112872.html
    0python内置函数
    https://www.cnblogs.com/cangshuchirou/p/9108313.html
    0python之禅
    https://www.cnblogs.com/cangshuchirou/p/9047349.html
    0Django
    https://www.cnblogs.com/cangshuchirou/p/8963286.html
    0pymsql入门
    https://www.cnblogs.com/cangshuchirou/p/8952726.html
    0jQuery事件
    https://www.cnblogs.com/cangshuchirou/p/8921037.html
    0数据库(索引)
    https://www.cnblogs.com/cangshuchirou/p/8780786.html
    0算法基础知识
    https://www.cnblogs.com/cangshuchirou/p/8780267.html
    0数据库(查询专项)
    https://www.cnblogs.com/cangshuchirou/p/8717620.html
    0数据库(所有人都坐下!这是基本操作!)
    https://www.cnblogs.com/cangshuchirou/p/8710319.html
    0协程
    https://www.cnblogs.com/cangshuchirou/p/8696330.html
    0IO模型
    https://www.cnblogs.com/cangshuchirou/p/8696315.html
    030个python常用技巧
    https://www.cnblogs.com/cangshuchirou/p/8678197.html
    0线程
    https://www.cnblogs.com/cangshuchirou/p/8671632.html
    0管道
    https://www.cnblogs.com/cangshuchirou/p/8665167.html
    0多进程
    https://www.cnblogs.com/cangshuchirou/p/8651478.html
    0进程
    https://www.cnblogs.com/cangshuchirou/p/8631239.html
    0验证客户端的一致性
    https://www.cnblogs.com/cangshuchirou/p/8624480.html
    0黏包现象
    https://www.cnblogs.com/cangshuchirou/p/8617206.html
    0socket模块
    https://www.cnblogs.com/cangshuchirou/p/8609837.html
    0网络编程基础
    https://www.cnblogs.com/cangshuchirou/p/8602689.html
    0面试题
    https://www.cnblogs.com/cangshuchirou/p/8585078.html
    0面试题合集
    https://www.cnblogs.com/cangshuchirou/p/8581611.html
    0异常
    https://www.cnblogs.com/cangshuchirou/p/8576285.html
    0三个重要的模块loggning,hashlib,configparse
    https://www.cnblogs.com/cangshuchirou/p/8570064.html
    0面向对象进阶
    https://www.cnblogs.com/cangshuchirou/p/8559046.html
    0单例模式
    https://www.cnblogs.com/cangshuchirou/p/8557000.html
    0反射
    https://www.cnblogs.com/cangshuchirou/p/8551007.html
    0封装
    https://www.cnblogs.com/cangshuchirou/p/8549636.html
    0开发规范
    https://www.cnblogs.com/cangshuchirou/p/8530447.html
    0继承,多态,接口
    https://www.cnblogs.com/cangshuchirou/p/8530417.html
    0面向对象多态及其继承
    https://www.cnblogs.com/cangshuchirou/p/8528948.html
    0面向对象三大特性
    https://www.cnblogs.com/cangshuchirou/p/8522417.html
    0模块的出生
    https://www.cnblogs.com/cangshuchirou/p/8493361.html
    0python的一些常用标准库
    https://www.cnblogs.com/cangshuchirou/p/8493234.html
    0re模块
    https://www.cnblogs.com/cangshuchirou/p/8484630.html
    0random模块
    https://www.cnblogs.com/cangshuchirou/p/8483743.html
    0集合文件操作
    https://www.cnblogs.com/cangshuchirou/p/8392062.html
    0制作python游戏(一)环境搭建
    https://www.cnblogs.com/cangshuchirou/p/8433589.html
    0迭代器和生成器
    https://www.cnblogs.com/cangshuchirou/p/8422615.html
    0py2与py3差别
    https://www.cnblogs.com/cangshuchirou/p/8423855.html
    0装饰器
    https://www.cnblogs.com/cangshuchirou/p/8406796.html
    0函数基础
    https://www.cnblogs.com/cangshuchirou/p/8399879.html
    0深浅copy
    https://www.cnblogs.com/cangshuchirou/p/8377698.html
    0字符串
    https://www.cnblogs.com/cangshuchirou/p/8361343.html
    0range
    https://www.cnblogs.com/cangshuchirou/p/8341872.html
    0join的基本用法和while else 特性
    https://www.cnblogs.com/cangshuchirou/p/8341851.html
    0字典的增删改查
    https://www.cnblogs.com/cangshuchirou/p/8351337.html
    0python基础数据型初探
    https://www.cnblogs.com/cangshuchirou/p/8337035.html
    0python基础列表元组用法
    https://www.cnblogs.com/cangshuchirou/p/8341661.html
    0python以及计算机原理基础简要摘录
    https://www.cnblogs.com/cangshuchirou/p/8329649.html
    0python bif 如何自学
    https://www.cnblogs.com/cangshuchirou/p/8332100.html
    0基本数据类型相互转换及操作方法
    https://www.cnblogs.com/cangshuchirou/p/8351714.html
    0python萌新应知应会
    https://www.cnblogs.com/cangshuchirou/p/8319132.html
    

      

  • 相关阅读:
    搜查令——中期总结
    搜查令——第二周
    软件工程团队项目——搜查令
    初入博客园
    初步了解Ajax
    APPLET基础
    LoggingFilter Session 以及Async
    Session
    XML定义 用途 工作原理及未来
    Linux安装Axis C构建WebService服务
  • 原文地址:https://www.cnblogs.com/cangshuchirou/p/9148345.html
Copyright © 2011-2022 走看看