zoukankan      html  css  js  c++  java
  • selenium

    1. 爬取内容

    爬取网页内容,实际也是通过定位元素,然后获取元素内容

    例如,爬取下图表格中的元素内容(tr为行,td为列)

     代码如下:

    两层循环,一层行,一层列
    1
    def test_1_table(self): 2 jobs = self.driver.find_elements_by_class_name('ant-table-row.ant-table-row-level-0') # 每行tr 3 for job in jobs: 4 fields = job.find_elements_by_tag_name('td') # 每行里的字段td 5 for field in fields: 6 stringFields = field.text 7 print(stringFields, end='|') 8 print('')

    打印出来如下:

    1|hunanmendian65100|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    2|hunanmendian82429|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    3|hunanmendian38531|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    4|hunanmendian9513|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    5|hunanmendian87041|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    6|hunanmendian89772|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    7|hunanmendian38121|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    8|hunanmendian2432|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    9|hunanmendian22671|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|
    10|hunanmendian63588|阳光路第一分店|湖南省长沙市芙蓉区阳光大街1号|张三||编辑更多|

    2. 写入文件

    将爬取的内容,存储到文件中:

     1 def test_1_table(self):
     2     jobs = self.driver.find_elements_by_class_name('ant-table-row.ant-table-row-level-0')  # 每行tr
     3     book = xlwt.Workbook()
     4     sh = book.add_sheet('123')
     5 
     6     row = 0
     7     for job in jobs:
     8         fields = job.find_elements_by_tag_name('td')  # 每行里的字段td
     9         col = 0
    10         for field in fields:
    11             stringFields = field.text
    12             print(stringFields, end='|')
    13             sh.write(row, col, stringFields)
    14             col += 1
    15 
    16         print('')
    17         row += 1
    18 
    19     book.save('44.xls')

    保存后的文件如下:

  • 相关阅读:
    [kuangbin带你飞]专题二十一 概率&期望
    [kuangbin带你飞]专题二十 斜率DP
    POJ——3984迷宫问题(BFS+回溯)
    POJ——2251Dungeon Master(三维BFS)
    HDU——2647Reward(DFS或差分约束)
    HDU——4549M斐波那契数列(矩阵快速幂+快速幂+费马小定理)
    PAT天梯赛练习题——L3-008. 喊山(邻接表+BFS)
    Opencv学习笔记——视频高斯模糊并分别输出
    Opencv学习笔记——视频进度条的随动
    NYOJ——239月老的难题(二分图最大匹配)
  • 原文地址:https://www.cnblogs.com/xiaochongc/p/12673843.html
Copyright © 2011-2022 走看看