zoukankan html css js c++ java

网络爬虫基础练习

import requests
url = 'http://localhost:63342/bd/gouxueyuan.html?_ijt=kn4osq2f4cqos8pf8vjvmkrah7'
res = requests.get(url)
res.encoding = 'utf-8'

from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text,'html.parser')


print(soup.select('h1')[0].text)


for link in soup.select('a'):
    print(link.get('href'))

for i in soup.select('li'):
    print(i.contents)

print(soup.select('.news-list-title')[0].text)
print(soup.select('li')[1].a.attrs['href'])
print(soup.select('.news-list-info')[0].contents[0].text)
print(soup.select('.news-list-info')[0].contents[1].text)

查看全文

相关阅读:
Perl 简介
 一定时间后延时变长问题
 CPAN常见问题集
 J2SE简介
 brian的Perl问题之万能指南
 清洁工 VS 亿万富翁
 关于VC中的"stdafx.h"
Perl模式匹配
 wiki介绍
 生活中10大省钱小秘诀白领一族"必备诀窍"

原文地址：https://www.cnblogs.com/129lai/p/8668839.html