zoukankan      html  css  js  c++  java
  • python简单页面爬虫入门 BeautifulSoup实现

    本文可快速搭建爬虫环境,并实现简单页面解析

    1、安装 python

     下载地址:https://www.python.org/downloads/

    选择对应版本,常用版本有2.7、3.4

    安装后,将安装目录加入到环境变量path中,可在dos窗口查看版本,以检查是否安装正常

    python -V

    2、安装 pip

    pip是python包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能

    目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。

    Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。

     下载地址:https://pypi.org/project/pip/#files

    你可以通过以下命令来判断是否已安装:

    pip --version

    选择对应版本,下载后解压,在文件目录执行安装命令:

    python setup.py install

    3、安装 BeautifulSoup

     执行命令:

    pip install beautifulsoup4

    4、代码

    #-*- coding:utf-8 -*-
    import urllib2
    import urllib
    from bs4 import BeautifulSoup
    
    #设置字符编码格式
    import sys
    reload(sys)
    sys.setdefaultencoding('utf8')
    
    #打开保存结果的txt
    txtfile = open('data.txt','w') 
    
    #请求网页
    url = "www.baidu.com"
    html=urllib2.urlopen(url).read() #解析网页和数据 soup = BeautifulSoup(html, "html.parser") html_name = soup.findAll(attrs={"class":"f_l zi"}) html_five = soup.findAll(attrs={"class":"co_666"}) surname = html_name[0].text #保存结果 txtfile.write(surname )

    一个简单的爬虫就完成了,欢迎留言交流

  • 相关阅读:
    RAD Studio最终版合集
    cxGrid 锁定一行,让该行数据不能编辑
    跨平台打开一个URL的方法
    【转】DELPHI开始支持LINUX DOCKER
    HTTP请求的拦截
    SVG图像
    Kafka
    HBase分布式集群部署
    HBase
    Mapreduce提交YARN集群运行
  • 原文地址:https://www.cnblogs.com/fanlu/p/11018747.html
Copyright © 2011-2022 走看看