zoukankan      html  css  js  c++  java
  • python网络数据采集(低音曲)

    废话不多说,马上开始。

    上次我们说到遍历单个域名,今天我们来写一个爬对应词条的脚本,他会遍历整个网址直到爬完对应词条。

    代码:

    from urllib.request import urlopen

    from bs4 import BeautifulSoup

    import re

    import random

    import datetime

    random.seed(datetime.datetime.now())

    def geturl(gdfc):

      html=urlopen("http://wikipedia.org")

      bosj=BeautifulSoup(html)

      return bosj.find("div",{"id":"bodyContent"}).findAll(a,htrf=re.compile("^(/wiki/)(?!:).")*?))

    links=geturl("/wiki/anonymous")

    while len(links)>0:

      newArtice=links[random.randint(0,len(links)-1)]/attrs["href"]

        print(newArtice)

    links=geturl(newArtice)

  • 相关阅读:
    String 方法
    异常处理
    数组长度改变方法
    对象
    重载(函数)
    函数
    java基础(死循环退出选项)
    cookie的封装,获取,删除
    事件监听的理解
    JS少数兼容
  • 原文地址:https://www.cnblogs.com/haq5201314/p/7356259.html
Copyright © 2011-2022 走看看