zoukankan html css js c++ java

python 利用爬虫获取页面上下拉框里的所有国家

前段时间，领导说列一下某页面上的所有国家信息，话说这个国家下拉框里的国家有两三百个，是第三方模块导入的，手动从页面拷贝，不切实际，于是想着用爬虫去获取这个国家信息，并保存到文件里。

下面是具体的代码，写的也是比较简单，

第一种：利用Selenium操作页面，获取下拉国家列表的信息，并保存到文件里

from selenium import webdriver
import xlwt
driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
driver.get('https://xxx.xx.com/contact')
countries = driver.find_element_by_id('country')#获取country dropdownlist
options_list = countries.find_elements_by_tag_name('option')
options = []
for option in options_list: #获取country dropdownlist里所有的数据
    options.append(option.text)
with open('country_list.txt','w+', encoding='utf-8') as f:
    for i in options:
        if i != 'Select your country':
            f.write(i+'
')
driver.quit()

第二种：利用pyquery

from pyquery import PyQuery as pq
doc = pq('https://xxx/contact')
countries = doc('select')('#country').text()
with open('country_list.txt','w+', encoding='utf-8') as f:
    f.write(countries)

发现用Pyquery实现更加的简单，一句 countries = doc('select')('#country').text() 就搞定了。

查看全文

相关阅读:
Mybatis集成dbcp-java.lang.AbstractMethodError: Method org/apache/commons/dbcp/DelegatingResultSet.isClosed()Z is abstract
Word 错误提示“此功能看似已中断，并需要修复” 解决
 解决 org.springframework.context.annotation.ConflictingBeanDefinitionException
IDEA中的JAVA WEB项目启动报错的定位方法
 Oracle数据库中包含CLOB字段表的导出和导入
 idea terminal修改为gitbash多彩
 企业微信如何发红包企业微信向个人发红包企业微信群无法发红包企业微信无法发红包企业微信无法发红包如何解决
 vue项目中使用ts（typescript）入门教程
 svg / d3-force 中如何给link的label文字加底色
 svg 如何使用滤镜给文字加底色

原文地址：https://www.cnblogs.com/nancyzhu/p/8449668.html