zoukankan html css js c++ java

4.Python爬虫小案例

1.网络爬虫定义：按照一定的规则，自动的抓取网站信息的程序或者脚本。

2.流程：request打开url得到html文档==浏览器打开源码分析元素节点==通过BeautifulSoup得到想要的数据==存储到指定路径

3.代码如下：

from urllib import request
from bs4 import BeautifulSoup

url = "https://www.jianshu.com/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}

page = request.Request(url,headers=headers)
pageinfo = request.urlopen(page).read().decode('UTF-8')  #打开url,获取数据返回response对象

soup = BeautifulSoup(pageinfo,'html.parser')  #将获取到的内容转换为BeautifulSoup格式，并将html.parser作为解析器

titles = soup.find_all('a','title')  #查找所有a标签中class='title'的语句

with open(r"E:python.txt",'w') as file:   #open()是读写文件的函数，with会自动close（）已打开的文件
    for title in titles:
        file.write(title.string)

查看全文

相关阅读:
搞懂分布式技术30：高并发解决方案——提升高并发量服务器性能解决思路
 海量数据处理
 海量数据处理
 Linux虚拟机的三种网络连接方式
 一篇文章，读懂Netty的高性能架构之道
 MYCAT学习笔记
 Java网络编程和NIO详解开篇：Java网络编程基础
 Java网络编程和NIO详解8：浅析mmap和Direct Buffer
apache 2.4.23 只能本地访问，其他用户不能访问，提示You don't have permission to access
python数据分析及展示（三）

原文地址：https://www.cnblogs.com/android-it/p/9492042.html