zoukankan html css js c++ java

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中

# -*- coding:utf-8 -*-

import urllib2
import lxml.html
from lxml import etree

def main():
    file = open('./countrys.txt', 'w+')
    file.close()
    countrys = []
    url = 'https://guojiadiqu.51240.com/'
    html = urllib2.urlopen(url).read()
    # tree = lxml.html.fromstring(html)
    # td = tree.cssselect('div#main_content > ul.list > li > a > @href')[0]
    selector = etree.HTML(html)
    uls = selector.xpath('//div[@id="main_content"]/ul')
    for ul in uls:
        lis = ul.xpath('./li')
        for li in lis:
            country_infos = {}
            key = li.xpath('./a/text()')[0]
            value = 'https://guojiadiqu.51240.com' + li.xpath('./a/@href')[0].strip()
            country_infos[key] = value
            countrys.append(country_infos)
    return get_capital(countrys)

def get_capital(list):
    i = 0
    for country in list:
        i += 1
        name = country.keys()[0]
        url = country.values()[0]
        html = urllib2.urlopen(url).read()
        tree = etree.HTML(html)
        tr = tree.xpath('//div[@id="main_content"]/table')[0]
        tr1 = tr.xpath('./tr/td/table/tr')
        tr2 = tr1[2].xpath('./td/text()')
        file = open('./countrys.txt', 'a')
        if len(tr2) > 0:
            content = str(i) + '  ' + name + '
   ' + tr2[0] + '
'
        else:
            content = str(i) + '  ' + name + '
' + '   
'
        file.write(content.encode('utf-8'))
        file.close()

if __name__ == "__main__":
    main()

查看全文

相关阅读:
Atitit ..Net Framework sdk 3.0 3.5 4.04.5 4.6 4.7 .net core版本新特性 v2 s22 1. 新特性来源于 down ms 官方网站 1
Atitit 工业体系的分类目录 1. 有多少个灰色黑色行业？？ 1 2. 30个制造业行业细分制造业下面还有更精细的划分，见下表1.2: 2 3. 艾提拉需要掌握的体系 3 4. 艾提拉需要
 Atitit 提升开发效率通道化驱动化数据操作与查询目录 1. xiaoguo 1 1.1. Atitit mybatis 简化开发与提升开发效率法 1 2. Code 1 3. ref 4
Atitit 常见聚合运算与算法目录 1.1. 单行函数,vs 那就是聚合函数 1 1.2. 聚合分类哈希聚合标量聚合流聚合 1 1.3. 常见聚合函数 mysql oracle等 1 r
Atitit git 使用法v2 目录 1. Git客户端工具 1 1.1. Tortoisegit git gui 图形化工具。。 1 1.2. Ide中的git插件(eclipse idea
Atitit 提升开发效率的方法提升语言级别目录 1. 提升语言级别到4gl 1 1.1. 语言的代际关系 sql 》script 》java 1 1.2. 使用4gl dsl语言与api 1
Atitit mybatis返回多个数据集总结目录 1.1. 配置handleResult接受，但是只有第一个select语句的结果 1 2. 配置resultMap ok 1 2.1. 调
 Atitit pdf转文本 pdf2txt v4 t83.docx Atitit pdf转文本 pdfutil 目录 1.1. Pdfbox cmd 模式 TextToPDF 1 1.2. Pdf
Atitit mybatis 简化开发与提升开发效率法目录 1.1. 使用注解模式代替xml模式 1 1.2. 使用通用mapper代替专用mapper 1 1.3. 使用js等脚本语言来输出sq
Atitit mq的AMQP 协议 STOMP2 、MQTT3 等协议 MQTT,XMPP,STOMP,AMQP,WAMP 目录 1. AMQP in a Nutshell 1 2. MQTT概述

原文地址：https://www.cnblogs.com/wozuilang-mdzz/p/9737265.html

爬虫-----爬取所有国家的首都、面积 ，并保存到txt文件中

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中