python简单页面爬虫入门 BeautifulSoup实现

zoukankan html css js c++ java

python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境，并实现简单页面解析

1、安装 python

下载地址：https://www.python.org/downloads/

选择对应版本，常用版本有2.7、3.4

安装后，将安装目录加入到环境变量path中，可在dos窗口查看版本，以检查是否安装正常
python -V
2、安装 pip

pip是python包管理工具，该工具提供了对Python 包的查找、下载、安装、卸载的功能

目前如果你在 python.org 下载最新版本的安装包，则是已经自带了该工具。

Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。

下载地址：https://pypi.org/project/pip/#files ，

你可以通过以下命令来判断是否已安装：
pip --version
选择对应版本，下载后解压，在文件目录执行安装命令：
python setup.py install
3、安装 BeautifulSoup

执行命令：
pip install beautifulsoup4
4、代码
#-*- coding:utf-8 -*- import urllib2 import urllib from bs4 import BeautifulSoup #设置字符编码格式 import sys reload(sys) sys.setdefaultencoding('utf8') #打开保存结果的txt txtfile = open('data.txt','w') #请求网页 url = "www.baidu.com"
html=urllib2.urlopen(url).read() #解析网页和数据 soup = BeautifulSoup(html, "html.parser") html_name = soup.findAll(attrs={"class":"f_l zi"}) html_five = soup.findAll(attrs={"class":"co_666"}) surname = html_name[0].text #保存结果 txtfile.write(surname )
一个简单的爬虫就完成了,欢迎留言交流
查看全文

相关阅读:
C#学习笔记（委托）
C#学习笔记（函数——如何在函数中传入传出参数）
C#学习笔记（隐式和显式转化、枚举类型、结构类型、数组类型和字符串）
C#学习笔记（流程语句）
C#学习笔记（基本语法）
java调用exe,及调用bat不成功的解决办法
 JS数组去重精简版
 根据经纬度坐标获取位置信息（基于百度地图）
图解算法习题之老王的杂货铺
 JS中的MOD运算

原文地址：https://www.cnblogs.com/fanlu/p/11018747.html

python简单页面爬虫入门 BeautifulSoup实现

1、安装 python

2、安装 pip

3、安装 BeautifulSoup

4、代码