zoukankan html css js c++ java

关于某一爬虫实例的总结

os.chdir(r"C:Users47311Desktopcode") #修改为自己文件路径

data = pd.read_excel(r"公司公告2020.xlsx")[:-1] #读入数据，并删除最后一行（最后一行为空值）

读取的数据在 chdir 之下

存在多个数据时,使用字符串类型进行 split 分割 "
可能会出错,需要异常处理

DataFrame 对象.apply(函数名) 
经常会使用,可以用来赋值新的值

def address(str):            #定义提取公告地址函数
    try:
        return str.split('"')[1]
    except:
        pass
data["公告地址"] = data["公告地址"].apply(address)

对代码进行获取某一个值时 
可以先获取数据上面的内容
html = requests.get(url).text
使用 etree.HTML(html) 进行解析
使用 xpath 读取路径
tree.xpath("xxxx")

返回读取到的内容,对原内容进行更新
return "http://xxxx.com/" + url[0]

data.iterrows()
读取每一行的数据
for index, row in data.iterrows():
row['属性'] 进行获取值

添加文件后缀

name = row['公告标题'].split(':')[0] + row["证券代码"][:6] + "_" + row["公告日期"] + ".pdf"

爬取时,进行必要的条件信息的说明

使用 urlretrieve(url,filename = r' xxx ')
进行保存

2020-05-28

查看全文

相关阅读:
[数据结构]直接插入排序
 隐藏小程序scroll-view组件的滚动条
 当 uni-app 遇见 vscode
npm(你怕吗) 全局安装与本地安装、开发依赖和生产依赖
 Vue-resource的使用
 spy-debugger调试、抓包工具
 一个小时学会Git
flex布局踩过的坑
 Html5移动端布局及(rem布局)页面自适应布局详解
 使用vscode自动编译less

原文地址：https://www.cnblogs.com/hany-postq473111315/p/12980219.html