网络爬虫基础练习

import requests
import re
from bs4 import BeautifulSoup


head = {}
head['user-agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

r=requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/",headers=head)
r.encoding='utf-8'
soup=BeautifulSoup(r.text,'html.parser')

print("a标签的链接：")
print(soup.h1)
print()
print("a标签的链接:")
print(soup.a.attrs['href'])
print()
print('所有li标签的所有内容:')
#print(soup.find_all('li'))
for each in soup.find_all('li'):
    print(each)

print()
print()
a1=soup.select_one(".news-list").select_one("li")
print(a1.select_one(".news-list-title").text)
print(a1.a.attrs.get('href'))
print(a1.select_one(".news-list-info").contents[0].text)
print(a1.select_one(".news-list-info").contents[1].text)

查看全文

相关阅读:
C++如何对接sqlitepp
c++11中的condition_variable和之前的pthread_cond_timedwait的不同之处
 浏览器设置代理模式后的报文是怎么样的？
C++11中令人吐血的"移动语义"和"新的右值引用"
MYSQL的事务及锁操作
 Microsoft Word —— 使用宏脚本将所有表格添加边框
 Navicat——如何导出数据字典
 Redis——配置详解
 keepalived——tengine集群主备均有VIP
Docker——如何修改运行中容器的映射端口

原文地址：https://www.cnblogs.com/wban48/p/8670119.html