zoukankan      html  css  js  c++  java
  • selenium

    1. 爬取内容

    爬取网页内容,实际也是通过定位元素,然后获取元素内容

    例如,爬取下图表格中的元素内容(tr为行,td为列)

     代码如下:

    两层循环,一层行,一层列
    1
    def test_1_table(self): 2 jobs = self.driver.find_elements_by_class_name('ant-table-row.ant-table-row-level-0') # 每行tr 3 for job in jobs: 4 fields = job.find_elements_by_tag_name('td') # 每行里的字段td 5 for field in fields: 6 stringFields = field.text 7 print(stringFields, end='|') 8 print('')

    打印出来如下:

    1|hunanmendian65100|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    2|hunanmendian82429|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    3|hunanmendian38531|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    4|hunanmendian9513|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    5|hunanmendian87041|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    6|hunanmendian89772|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    7|hunanmendian38121|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    8|hunanmendian2432|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    9|hunanmendian22671|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    10|hunanmendian63588|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|

    2. 写入文件

    将爬取的内容,存储到文件中:

     1 def test_1_table(self):
     2     jobs = self.driver.find_elements_by_class_name('ant-table-row.ant-table-row-level-0')  # 每行tr
     3     book = xlwt.Workbook()
     4     sh = book.add_sheet('123')
     5 
     6     row = 0
     7     for job in jobs:
     8         fields = job.find_elements_by_tag_name('td')  # 每行里的字段td
     9         col = 0
    10         for field in fields:
    11             stringFields = field.text
    12             print(stringFields, end='|')
    13             sh.write(row, col, stringFields)
    14             col += 1
    15 
    16         print('')
    17         row += 1
    18 
    19     book.save('44.xls')

    保存后的文件如下:

  • 相关阅读:
    Linux常用命令学习
    LA 6437 Power Plant (prim最小生成树)
    Atitit.提升稳定性-----分析内存泄漏PermGen OOM跟解决之道...java
    hdu 1248 寒冰王座
    数据结构——算法之(031)(将字符串中全部小写字母排在大写字母的前面)
    X-射线:探索原子世界的利器
    关于sql中的with(nolock)
    Netty In Action中文版
    抓包报文分析
    POJ 1562 Oil Deposits
  • 原文地址:https://www.cnblogs.com/xiaochongc/p/12673843.html
Copyright © 2011-2022 走看看