python爬虫-采集英语翻译

zoukankan html css js c++ java

python爬虫-采集英语翻译

http://fanyi.baidu.com/?aldtype=85#en/zh/drug
http://fanyi.baidu.com/?aldtype=85#en/zh/cat
http://fanyi.baidu.com/?aldtype=85#en/zh/amoxicillin

url+word

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 2 20:35:05 2016

@author: daxiong
"""

import openpyxl,selenium,bs4,requests
from selenium import webdriver
from openpyxl.cell import get_column_letter,column_index_from_string
excel_name='translation.xlsx'
#两个表格名字
sheet_name="Sheet1"
wb=openpyxl.load_workbook(excel_name)
sheet=wb.get_sheet_by_name(sheet_name)

English_columnname="A"
Chinese_columnname="B"
start=1

#根据列表索引字母，返回列表
def Get_column(columnname,thesheet):
column_index=column_index_from_string(columnname)
column=thesheet.columns[column_index-1]
return column

#根据列，返回列的值，用列表存储
def Column_cellValues(column):
cellValue_list=[]
for cellObj in column[start:]: #console显示不全前面内容，出现第一项不是第一个
#print(cellObj.value)
cellValue_list.append(cellObj.value)
return cellValue_list

#返回英语翻译网址列表
def Url_list(words_list):
url_list=[]
basic_url="http://fanyi.baidu.com/?aldtype=85#en/zh/"
for word in words_list:
url=basic_url+word
url_list.append(url)
return url_list

English_column=Get_column(English_columnname,sheet)
EnglishWords_list=Column_cellValues(English_column)
url_list=Url_list(EnglishWords_list)

#打开浏览器
#browser=webdriver.Firefox()
#browser.get(url_list[0])
res=requests.get(url_list[0])
res.raise_for_status()
soup=bs4.BeautifulSoup(res.text,"lxml") #如果没有"lxml"参数，在其他系统或虚拟机会出错
spanElems=soup.select('span')

查看全文

相关阅读:
window下配置ssh key
Mysqldump记录
 WordPress插件入口菜单创建的位置代码
 阿里大鱼发送短信使用记录
 SpringMVC–SSH -- RESTful -- JSR303
Spring MVC程序中得到静态资源文件css,js,图片
 包机项目源码分析笔记
 myeclipse中java文件头注释格式设置
 oracle扩展dblink数。
linux--解决oracle sqlplus 中上下左右backspace不能用

原文地址：https://www.cnblogs.com/webRobot/p/5236802.html