zoukankan html css js c++ java

网络爬虫基础练习

import requests
url = 'http://localhost:63343/Demo/cehsi.html?_ijt=ah8jh9pfl0r7j3qoqt6r8egqk5'

res = requests.get(url)
res.encoding = 'utf-8'
print(res.text)


from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,"html.parser")


# 取出h1标签的文本
print(soup.h1.text)

# 取出a标签的链接
print(soup.a.attrs['href'])

# 取出所有li标签的所有内容
for i in soup.select('li'):
    print(i.contents)

# 取出一条新闻的标题、链接、发布时间、来源
print(soup.select('.news-list-title')[0].text)
print(soup.li.a.attrs['href'])
print(soup.select('.news-list-info')[0].contents[0].text)
print(soup.select('.news-list-info')[0].contents[1].text)

查看全文

相关阅读:
入门系列4
入门系列3
入门系列2
入门系列1
sql进阶-筛选库表中数据为空的表
 sql进阶-删除所有的视图
 sql序列（2） sql语句功能表
 sql序列（5）事务
 sql序列（4）存储过程
 KVM虚拟化介绍

原文地址：https://www.cnblogs.com/18128319239F/p/8672362.html