zoukankan html css js c++ java

盖得化工--采集二级网址的公司详细信息

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

# -*- coding: utf-8 -*-
"""
Created on Wed May 11 10:18:57 2016

@author: Administrator
"""

import requests,bs4,csv,time,random,os

fileName='combinedFile.csv'
#存放二级网址目录
thedir='C:/Users/Administrator/Desktop/盖得化工测试/二级链接/'

#获取所有csv文件名
def Get_csvFileNames():
    #获取路径下所有文件
    list_FileNames=os.listdir(thedir)
    #获取路径下所有csv文件
    list_csvFileNames=[fileName for fileName in list_FileNames if os.path.splitext(fileName)[1]==".csv"]
    return list_csvFileNames

 #获取一个csv文件的公司的二级网址，一共二十个
def Get_second_links(fileName):
    file=open(fileName,'r')
    csv_reader=csv.reader(file)
    second_links=list(csv_reader)
    second_links1=[i[1] for i in second_links]
    
    return second_links1

#获取一个公司的信息：名字，主要产品，联系方式，地址 ，并保存到一个row的列表中
def Get_companeyInformation(secondLink):
    #row用于保存公司所有采集信息
    row=[]
    res=requests.get(secondLink)
    soup=bs4.BeautifulSoup(res.text,"lxml")
    #公司名字
    companyName_elem=soup.select(".cnname")
    companyName=companyName_elem[0].getText()
    #主要产品
    mainProduct_elem=soup.select(".main-product")
    mainProduct=mainProduct_elem[0].getText()
    #地址
    address_elem=soup.select(".public-ul")
    content=address_elem[1].getText()
    content1=content.split('
')
    address=content1[3]
    
    site_company=content1[6] 
    site_company1=site_company.strip('	')
    site_company2=site_company1.split("xa0")
    site_company3=site_company2[0:2] #最终结果
    row.append(secondLink)
    row.append(companyName)
    row.append(mainProduct)
    row.append(address)
    row.append(site_company3)
    return row

查看全文

相关阅读:
Mysql 知识点
 vscode debug No module named flask
c# 多线程概览
 c# 遍历属性
 排序算法
 sqlserver 评估过期
 HttpHandler和ashx使用Session 出现未初始化异常
 with(window) onload=onresize=function(){} 写法
 mAP(mean Average Precision)应用(转)
int和double究竟占多少个字节？c++等

原文地址：https://www.cnblogs.com/webRobot/p/5482741.html