python 爬虫小说 - 走看看

zoukankan html css js c++ java

python 爬虫小说

#encoding:utf8

import re

import urllib2

url = 'http://www.23us.com/html/55/55304/'

request = urllib2.Request(url)

response = urllib2.urlopen(request)

content = response.read().decode('gbk')

the_url = re.compile('<td class="L"><a href="(.*?)">.*?</a></td>',re.S) last_url = the_url.findall(content)

for i in last_url:

    print i

    url = 'http://www.23us.com/html/55/55304/'+i

    request = urllib2.Request(url)

    response = urllib2.urlopen(request)

    zhi = response.read()

    code = re.compile('.*?content="text.html; charset=(.*?)".*?',re.S)

    last_code = code.findall(zhi)[0]

    try:

        content = zhi.decode(''+last_code)

    except:

        try:

            content = zhi.decode('gb2312')

        except:

            continue

    last_content = re.compile('<title>(.*?)</title>.*?<dd id="contents">(.*?)</dd>',re.S)

    last_content = last_content.findall(content)

   if last_content==[]:

            print '采集失败'

           print content

    for I,J in last_content:

        J = J.replace(' ','').replace('<br/> <br/>',' ')

       file = open('小说.txt','a+')

        t = ' ' + I + ' ' + ' ' + J

        file.write(t.encode('utf-8'))

        file.close()

查看全文

相关阅读:
Java-JUC（四）：同步容器介绍
 Java-JUC（三）：原子性变量与CAS算法
 Java：双向链表反转实现
 Java-JUC（二）：Java内存模型可见性、原子性、有序性及volatile具有特性
 Java-JUC（一）：volatile引入
 TSQL:判断某较短字符串在较长字符串中出现的次数。
二叉树的定义与前序、中序、后序遍历
 c#：判断一个数组元素中否有重复元素
 c#：对两个字符串大小比较（不使用c#/java内部的比较函数）,按升序排序
 mysql之 OPTIMIZE TABLE整理碎片

原文地址：https://www.cnblogs.com/zhanglong68/p/6546754.html

Copyright © 2011-2022 走看看