zoukankan html css js c++ java

python爬虫 ----文章爬虫（合理处理字符串中的 ........）

import urllib.request
import re
import time

num=input("输入日期（20150101000）：")



def openpage(url):
    html=urllib.request.urlopen(url)
    
    page=html.read().decode('gb2312')
    
    return page

def getpassage(page):
    passage = re.findall(r'<p class="MsoNormal" align="left">([sS]*)</FONT>',str(page))
    
    passage1=re.sub("</?w+[^>]*>", "", str(passage))
    
    passage2=passage1.replace('\r', '
').replace('\n', ' 
').replace('\t','	').replace(']','').replace('[','').replace('&nbsp;','   ')

    print(passage2)

    with open(load,'a',encoding='utf-8') as f:
        f.write("-----------------------------"+"日期"+str(date)+"---------------------------------
"+passage2+"----------------------------------------------------
")





for i in range(1,32):
    date=int(num)+int(i)
    print(date)
    load="C:/Users/home/Desktop/新建文本文档.txt"
    url=("http://www.hbuas.edu.cn/news/xyxw/news_"+str(date)+".htm")
    
　　
    try:

        page=openpage(url)

        getpassage(page)

        print("第"+str(i)+"号有文章，----已下载")
    except:
        print("第"+str(i)+"号无文章。")
    time.sleep(2)

写了一个爬学校新闻网的爬虫，

主要涉及 re正则 urllib.request 文件的写入

在爬取文章时通常会返回很多影响美感的代码

如下：

优化：

两次正则

passage = re.findall(r'<p align="left">([sS]*)</FONT>',str(page))       #第一次匹配字段
    
passage1=re.sub("</?w+[^>]*>", "", str(passage))　　　　　　　　　　　　　　# 第二次去掉html标签

替换

passage2=passage1.replace('\r', '
').replace('\n', ' 
').replace('\t','	').replace(']','').replace('[','').replace('&nbsp;','   ')

效果如下：

over！

查看全文

相关阅读:
ubuntu git配置文件，配置颜色，同义词
 A PAINLESS GUIDE TO CRC ERROR DETECTION ALGORITHMS
Lucene索引文件解析之“域”
模2运算的原理
 Ubuntu aptcache命令查找可用软件包
 crc循环校验原理和实现
 python操作MySQL数据库
 异常：MessageBox.Show 容量超出了最大容量。参数名: capacity
JavaScript中的 Dictionary 的用法
 IIS设置允许下载.h264文件解决方法

原文地址：https://www.cnblogs.com/jjj-fly/p/7351017.html