zoukankan      html  css  js  c++  java
  • 使用简单的python语句编写爬虫 定时拿取信息并存入txt

    # -*- coding: utf-8 -*-    #解决编码问题
    import urllib
    import urllib2
    import re
    import os
    import time

    page = 1
    url = 'http://www.qiushibaike.com/text/page/4/?s=4970196' #爬取的目标网站
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = { 'User-Agent' : user_agent }
    try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    # print response.read()
    content = response.read().decode('utf-8') #解决编码问题
    pattern = re.compile(r'<div.*?class="content".*?<span>(.*?)</span>.*?</div>',re.S) #第一个参数是匹配要爬取的内容,这里使用正则去匹配
    items = re.findall(pattern,content)
    f=open(r'.article.txt','ab') #txt文件路径
    nowTimes = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) #获取当前时间
    f.write('时间:{} '.format(nowTimes),); #txt文件中写入时间
    for i in items:
    i.encode('utf-8')
    agent_info = u''.join(i).encode('utf-8').strip()
    f.writelines('段子:%s%s '%(str(agent_info),os.linesep)) #分行存入
    # f.write('%s'%str(agent_info))
    f.close()

    # print items

    except urllib2.URLError, e:
    if hasattr(e,"code"):
    print e.code
    if hasattr(e,"reason"):
    print e.reason


    布置定时任务使用crontab。 (具体crontab使用方法可见http://blog.csdn.net/daivon_up/article/details/71266814):
  • 相关阅读:
    matlab中的匹配函数
    查看matlab中的小波基
    图像处理中的彩色图像处理
    OSEK Event mechanism
    OSEK OS Resource management
    ISO17356标准简介[转]
    OSEK OS标准简介(转)
    IQmath的使用方法
    HIVERT高压变频主电路构造原理
    MPPT算法
  • 原文地址:https://www.cnblogs.com/zxtceq/p/8985753.html
Copyright © 2011-2022 走看看