zoukankan html css js c++ java

博客园文章爬取（乱写的，有的爬不下来）

微博爬取（乱写的）

import re
import requests
web=[
    {"name":'张三',"博客地址":"http://www.cnblogs.com/bladecheng/"},
    {"name":"甲","博客地址":"http://www.cnblogs.com/pythonywy/"},
    {"name":"乙","博客地址":"http://www.cnblogs.com/pythonywy/"},
    {"name":"丙","博客地址":"http://www.cnblogs.com/zrx19960128/"},
    {"name":"丁","博客地址":"http://www.cnblogs.com/itboy-newking/"},
    {"name":"帅哥","博客地址":"http://www.cnblogs.com/chuwanliu/"},
    {"name":"浪哥","博客地址":"http://www.cnblogs.com/einsam/"},
    {"name":"强哥","博客地址":"http://www.cnblogs.com/wsxiaoyao"},
    {"name":"云哥","博客地址":"http://www.cnblogs.com/yellowcloud/"}
]
for n in range(len(web)):
    print("%s的博客文章地址如下：" %(web[n]["name"]))
    html = requests.get(web[n]["博客地址"])
    strr = html.text                                              #网页文本  
    pat1 = r'postTitle2" href="(.*?)</a>'             #正则匹配
    title = re.findall(pat1, strr)                             #匹配后的结果
    long = len(title)
    for i in range(0, long):
        tx = r'">'
        res = re.sub(tx, '  文章标题：', title[i])
        print(res)
print("爬取完毕！")

查看全文

相关阅读:
ClouderaManager之CDH-LZO配置
 【转】二叉树、B树、B-树、B+树、B*树
 【转】MySQL索引原理及慢查询优化
 【转】Hadoop安全实践
 多线程中的Lock小结
 Hive学习笔记——基本配置及测试
 Linux下安装MySQL
Java中的弱引用
 Java反射小结
 Linux下配置Hadoop全分布式环境

原文地址：https://www.cnblogs.com/bladecheng/p/10883555.html

博客园 文章爬取（乱写的，有的爬不下来）

微博爬取（乱写的）

博客园文章爬取（乱写的，有的爬不下来）