zoukankan      html  css  js  c++  java
  • Python爬虫

    Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理

    源代码如下:

    # 改进版, 增加了 .strip()方法的使用
    # coding=utf-8
    # urllib是用于获取网络资源的库,python3自带
    # 此处的request是由Request类创建的一个实例对象
    import urllib.request
    
    # 调用request对象的urlopen()方法 , 传入url参数
    file = urllib.request.urlopen("http://www.baidu.com")
    # readlines()方法逐行读取整个文件到一个列表
    # 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉
    file_list = file.readlines()
    # 用for循环和if条件语句来遍历读取列表的前200个元素
    i = 0
    for file_per in file_list:
        i += 1
        if i <= 200:
            print(file_per.strip())      # str.strip(): 去掉字符串前后的空白字符
        else:
            break

  • 相关阅读:
    悲观锁乐观锁实战
    悲观锁
    乐观锁
    mysql数据库怎么设置乐观锁
    猴子吃桃问题
    算法题
    面试总结
    分布式系统理论(二):一致性协议Paxos
    职工工资管理
    79-WordSearch
  • 原文地址:https://www.cnblogs.com/chenbin93/p/8988705.html
Copyright © 2011-2022 走看看