20201310 2020-2021-2 《Python程序设计》实验四报告
- 课程:《Python程序设计》
- 班级: 2013
- 姓名: 何忠鑫
- 学号:20201310
- 实验教师:王志强
- 实验日期:2021年4月12日
- 必修/选修: 公选课
1.实验内容
(1)模仿浏览器向网页发出请求
(2)将得到的乱码进行格式化
(3)根据数据内容格式输出相应的图片以及评论
(4)将图片保存到文件中,将文档分类保存到excel表中
2.实验内容
首先导入相应的模块(可以模仿浏览器的模块)import requests
Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是request更加方便。
导入模块from lxml import etree
etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。作为_Element对象,可以方便的使用getparent()、remove()、xpath()等方法。
导入模块
import pandas as pd
使用pandas读取csv文件
使用pandas读取txt文件
使用pandas读取Excel文件
导入模块import os
3代码托管到码云,链接:https://gitee.com/he-zhongxin
实验代码
3. 实验过程中遇到的问题和解决过程
- 使用pycharm 下载 lxml 一直无法调入 etree模块
解决办法: 卸载pycharm 安装的lxml 使用命令行 重新安装lxml
4参考资料
感悟
本学期的python公选课,学习了运算符、数据类型、输入输出、控制语句、字符串、正则表达式、函数、面向对象的程序设计、文件操作异常处理、python爬虫。作为大一的新生,我在本学期同时学习两种编程语言,从中可以体会到python比C语言更加简洁,短短几行代码就可以完成很多内容。计算机可以有很多很好玩的东西,这次爬虫第一次接触,但感觉还可以。