zoukankan      html  css  js  c++  java
  • python的第一个爬虫程序

    环境是linux centos7.4,首先需要安装pip的相关模块。

    pip3 install bs4
    pip3 install lxml

    pip3 install requests

    我的开发环境是在Python 3.4.5 下进行的。

    打开网页查找要爬的东西,截图如下:

    规律是在a之间,标签是bookmark

    #!/usr/bin/env python
    #coding=utf-8
    
    import requests
    from bs4 import BeautifulSoup
    
    url = 'http://www.xxx.org/category/news'
    
    r = requests.get(url)
    
    soup = BeautifulSoup(r.content, 'lxml')
    
    bbs_nes = soup.find_all(name='a',attrs={'rel':'bookmark'})
    
    for news in bbs_nes:
        print (news.string)

    结果如下:

    得到了想要的标题。

     上手还是比较容易的。

    学习文档:

    https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

  • 相关阅读:
    centos
    ssh 登录 centos 服务器
    Sql NoSql
    Java
    PHP
    React Hooks使用
    前端优化tips
    Error:Node Sass version 5.0.0 is incompatible with ^4.x 解决
    css换行
    git 关联多个远程仓库
  • 原文地址:https://www.cnblogs.com/zw2002/p/8476389.html
Copyright © 2011-2022 走看看