爬虫10-股票信息定向爬取 - 走看看

zoukankan html css js c++ java

爬虫10-股票信息定向爬取

股票信息定向爬取

功能描述：

目标　　获取上交所和深交所所有股票的名称和交易信息

输出　　保存在文件中

技术路线　　requests　　bs4　　re

候选爬取网站：

新浪股票　　http://finance.sina.com.cn/stock/

百度股票　　https://gupiao.baidu.com/stock/

网站选取：

原则　　股票信息静态存在于HTML页面中，非js代码生成，没有robots协议限制

方法　　浏览器F12，源代码查看等

不要纠结于某个网站，多找信息源尝试

（在视频里老师表示新浪股票的html文件里没有个股信息，现在其实是有的，在这里我先选用百度股票）

由于百度股票的页面里不包含所有股票，因此我们先从东方财富网中获得所有股票名称。

程序的结构设计：

1、从东方财富网获取股票列表

2、根据股票列表逐个到百度股票获取个股信息

3、将结果保存到文件

查看全文

相关阅读:
java 笔记 Thread.currentThread().getContextClassLoader() 和 Class.getClassLoader()区别
 JAVA 笔记 ClassLoader.getResourceAsStream() 与 Class.getResourceAsStream()的区别
 配置mabatis,报Could not load driverClass ${jdbc.driverClassName}
maven-配置文件配置src/resource下的文件
 eclipse中tomcat 中server location灰色，如何修改？
解决maven项目update project会更改jdk版本问题
 maven创建web工程Spring配置文件找不到问题解决方案
 maven：pom.xml中没有dependency标签错误
 [转载]如何让上传到新浪博客和相册中的照片更大更清晰
 [转载]如何让上传到新浪博客和相册中的照片更大更清晰

原文地址：https://www.cnblogs.com/rayshaw/p/8625409.html

Copyright © 2011-2022 走看看