zoukankan      html  css  js  c++  java
  • 1)④爬取新浪军事新闻,并把内容存放到相应的文件夹中

     1 __author__ = 'minmin'
     2 #coding:utf-8
     3 import re,urllib,sgmllib,os
     4 
     5 #根据当前的url获取html
     6 def getHtml(url):
     7     page = urllib.urlopen(url)
     8     html = page.read()
     9     page.close()
    10     return html
    11 
    12 #根据html获取想要的文章内容
    13 def func(str):
    14      result= re.findall(r"<p>([^<>]*)</p>",getHtml(url),re.M)
    15      artical =''
    16      for j in result:
    17          if len(j)<>0:
    18              j = j.replace("&nbsp;","")
    19              j = j.replace("<STRONG>","   ")#去掉<STRONG>,换成"     "
    20              j = j.replace("</STRONG>","   ")#去掉</STROGN>换成"     "
    21              artical = artical + j + '
    '
    22      return  artical
    23 
    24 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。
    25 class URLPaser(sgmllib.SGMLParser):
    26     def reset(self):
    27         sgmllib.SGMLParser.reset(self)
    28         self.urls = []
    29 
    30     def start_a(self,attrs):
    31         href = [v for k,v in attrs if k == 'href']
    32         if href:
    33             self.urls.extend(href)
    34 
    35 IParser = URLPaser()
    36 socket = urllib.urlopen("http://mil.news.sina.com.cn/")#打开这个网页
    37 
    38 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中
    39 IParser.feed(socket.read())#分析啦
    40 
    41 reg = 'http://mil.news.sina.com.cn/.*'#这个是用来匹配符合条件的链接,使用正则表达式匹配
    42 
    43 pattern = re.compile(reg)
    44 
    45 
    46 os.getcwd()#获得当前文件夹路径
    47 os.path.sep#当前系统路径分隔符
    48  
    49 #判断文件是否存在
    50 if os.path.exists('sina_military')==False:
    51      os.makedirs('sina_military')
    52      
    53 i = 0
    54 url2 = []
    55 for url in IParser.urls:#链接都存在urls里
    56 
    57     if pattern.match(url):
    58         if url not in url2:
    59             url2.append(url)
    60             artical = func(url)
    61             print artical
    62             if len(artical)<>0:
    63               i = i + 1
    64               f = open("sina_military/"+ str(i) + '.txt','a+')
    65               f.write(artical)
    66               f.close()
  • 相关阅读:
    高斯消元学习
    HDU 4596 Yet another end of the world(解一阶不定方程)
    Codeforces Round #318 div2
    HDU 4463 Outlets(一条边固定的最小生成树)
    HDU 4458 Shoot the Airplane(计算几何 判断点是否在n边形内)
    HDU 4112 Break the Chocolate(简单的数学推导)
    HDU 4111 Alice and Bob (博弈)
    POJ 2481 Cows(线段树单点更新)
    HDU 4288 Coder(STL水过)
    zoj 2563 Long Dominoes
  • 原文地址:https://www.cnblogs.com/minmsy/p/4962731.html
Copyright © 2011-2022 走看看