zoukankan      html  css  js  c++  java
  • 关于某一爬虫实例的总结

    os.chdir(r"C:Users47311Desktopcode") #修改为自己文件路径
    data = pd.read_excel(r"公司公告2020.xlsx")[:-1] #读入数据,并删除最后一行(最后一行为空值)
    读取的数据在 chdir 之下
    存在多个数据时,使用字符串类型进行 split 分割 "
    可能会出错,需要异常处理 
    DataFrame 对象.apply(函数名) 
    经常会使用,可以用来赋值新的值
    
    def address(str):            #定义提取公告地址函数
        try:
            return str.split('"')[1]
        except:
            pass
    data["公告地址"] = data["公告地址"].apply(address)

    对代码进行获取某一个值时 
    可以先获取数据上面的内容
    html = requests.get(url).text
    使用 etree.HTML(html) 进行解析
    使用 xpath 读取路径
    tree.xpath("xxxx")
    
    返回读取到的内容,对原内容进行更新
    return "http://xxxx.com/" + url[0]

    data.iterrows()
    读取每一行的数据
    for index, row in data.iterrows():
    row['属性'] 进行获取值
    
    添加文件后缀
    
    name = row['公告标题'].split(':')[0] + row["证券代码"][:6] + "_" + row["公告日期"] + ".pdf"

    爬取时,进行必要的条件信息的说明
    
    使用 urlretrieve(url,filename = r' xxx ')
    进行保存

    2020-05-28

  • 相关阅读:
    写在毕业季前
    使用Github Page鼓励自己每日编程
    win8/Metro开发系列一 Xaml布局
    AlertDialog详解
    安卓项目文件目录
    Andriod布局之LinearLayout
    Andriod定时任务
    android 设置布局横屏竖屏
    Android默认启动程序问题
    Android全屏显示
  • 原文地址:https://www.cnblogs.com/hany-postq473111315/p/12980219.html
Copyright © 2011-2022 走看看