py网络爬虫基础练习

1. 取出h1标签的文本

soup.h1.text

2. 取出a标签的链接

soup.a.attrs['href']

3. 取出所有li标签的所有内容

for i in soup.select('li'):
    print(i.contents)

4. 取出第2个li标签的a标签的第3个div标签的属性

soup.select('li')[1].a.select('div')[2].attrs

5. 取出一条新闻的标题、链接、发布时间、来源

soup.select('.news-list-title')[0].text

soup.select('li')[2].a.attrs['href']

soup.select('.news-list-info')[0].contents[0].text

soup.select('.news-list-info')[0].contents[1].text

查看全文

相关阅读:
阶段性总结(PHP-JSON)
阶段性总结(PHP-Array函数)
JavaScript异步加载的三种方式——async和defer、动态创建script
event.target 和 event.currentTarget 的区别
 面试题：常用的http状态码
 JS变量重复声明以及忽略var 声明的问题及其背后的原理
 line-height:1.5和line-height:150%的区别
 Web前端性能优化——如何提高页面加载速度
 Promise和setTimeout执行顺序面试题
 过目不忘JS正则表达式