网络爬虫基本练习

1.取出h1标签的文本

import requests
re=requests.get('http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html')
re.encoding='utf-8'
print(re)
print(re.text)
print(soup.h1.text)

2.取出a标签的链接

soup.a.attrs.get('href')

3.取出所有li标签的所有内容

 for i in soup.select('li'):
    print(i.text)

4.取出一条新闻的标题、链接、发布时间、来源

print(soup.select('.news-list-title')[0].text)
print(soup.select('li')[1].a.attrs['href'])
print(soup.select('.news-list-info')[0].contents[0].text)
print(soup.select('.news-list-info')[0].contents[1].text)

查看全文

相关阅读:
Network Flows(借助ortools)
【转】一张图看懂IaaS, PaaS和SaaS的区别
 论文中的一些符号 O(big-Oh) Ω(big-omega) Θ(big-theta)
最大流问题
 4 Mininet测量路径的损耗率
 3 Mininet命令延伸实验拓展
 2 Mininet可视化应用
 快速定位问题
 软中断与软中断的排查
 系统出现大量不可中断进程与僵尸进程

原文地址：https://www.cnblogs.com/TopHin/p/8671859.html