zoukankan      html  css  js  c++  java
  • Python 实现抓取腾讯新闻文章

    最近学了一段时间的 Python,研究了下爬虫,在网上看了一些资料,然后自己写了一个抓取腾讯新闻文章的爬虫。

    首先说一下抓取思路:

    1、抓取腾讯新闻列表页面: http://news.qq.com/。

    2、提取详细页面的 Url:https://news.qq.com/a/20190717/006715.htm。

    3、在详细页中提取新闻标题和内容。

    4、去除提取内容中的 html 标签,生成 txt 文档。

    以下是实现代码:

    #coding=utf-8
    import sys
    import urllib2
    import re
    import os
     
    def extract_url(info):
         rege="http://news.qq.com/a/\d{8}/\d{6}.htm"
         re_url = re.findall(rege, info)
         return re_url
     
    def extract_sub_web_title(sub_web):
         re_key = "<title>.+</title>"
         title = re.findall(re_key,sub_web)
         return title
     
    def extract_sub_web_content(sub_web):
         re_key = "<div id=\"Cnt-Main-Article-QQ\".*</div>"
         content = re.findall(re_key,sub_web)
         return content
     
    def filter_tags(htmlstr):
         re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配 CDATA
         re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
         re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
         re_p=re.compile('<P\s*?/?>')#处理换行
         re_h=re.compile('</?\w+[^>]*>')#HTML 标签
         re_comment=re.compile('<!--[^>]*-->')#HTML 注释
         s=re_cdata.sub('',htmlstr)#去掉 CDATA
         s=re_script.sub('',s) #去掉 SCRIPT
         s=re_style.sub('',s)#去掉 style
         s=re_p.sub('\r\n',s)#将<p>转换为换行
         s=re_h.sub('',s) #去掉 HTML 标签
         s=re_comment.sub('',s)#去掉 HTML 注释 
         blank_line=re.compile('\n+')#去掉多余的空行
         s=blank_line.sub('\n',s)
         return s
     
    #get news
    content = urllib2.urlopen('http://news.qq.com').read()
     
    #get the url
    get_url = extract_url(content)
     
    #generate file
    f = file('result.txt','w')
     i = 15            # 新闻起始位置,前面几条格式不一致
    flag = 30
    while True:
         f.write(str(i-14)+"\r\n")
     
         #get the sub web title and content
         sub_web = urllib2.urlopen(get_url[i]).read()
         sub_title = extract_sub_web_title(sub_web)
         sub_content = extract_sub_web_content(sub_web)
     
         #remove html tag
         if sub_title != [] and sub_content != []:
             re_content = filter_tags(sub_title[0]+"\r\n"+sub_content[0])
             f.write(re_content.decode("gb2312").encode("utf-8"))
             f.write("\r\n")
         else:
             flag = flag +1
     
         if i == flag:
             break
     
         i = i + 1
         print "Have finished %d news" %(i-15)
    f.close()
  • 相关阅读:
    C# 为WebBrowser设置代理,打开网页
    C# WebBrowser 设置代理完全解决方案
    java读取文件的几种方式性能比较
    .NET 对文件和文件夹操作的介绍
    java利用反射打印出类的结构
    java输出月的日历控制台
    java 实现二分查找算法
    java实现快速排序
    解决window 12 service 不能调用excel ,报"System.Runtime.InteropServices.COMException (0x800A03EC)
    3 webpack 4 加vue 2.0生产环境搭建
  • 原文地址:https://www.cnblogs.com/weisenz/p/2425452.html
Copyright © 2011-2022 走看看