nodejs 快要变成爬虫界的王者 - 走看看

zoukankan html css js c++ java

nodejs 快要变成爬虫界的王者
nodejs 快要变成爬虫界的王者

爬虫这东西是很多数据采集必须要的东西。但是现在随着网页不断发展，已经出现了出单纯的网页，到 ajax 网页，再到 spa ，再到 websocket 应用，一直在变化，爬虫不变化怎么能行呢。爬虫从只爬网页，到ajax，一直工作的很好。而对于现在的 spa和websocket 网页传统的爬虫基本上没有很好的办法进行处理，怎么办。

最新的技术手段进行分析如下：
1. 数据直接从浏览器端拿到，通过 server browser 和注入脚本。直接在浏览器端执行脚本，这样就可以 spa 和 websocket 都可以。
2. Json 处理：JsonPath, alasql
3. html 处理：xpath, cheerio
4. 直接在浏览器端注入脚本，socket.io 和监听 dom 的变化，把变化的流发表出去到服务器 (wechaty ) 就是这么做的。
5. https://hackernoon.com/universal-javascript-console-for-browser-electron-nw-js-node-js-and-windows-272e4bd6f9d9 这篇文章也是这个思路
查看全文

相关阅读:
大规模机器学习
 机器学习之推荐系统
 SVM实现邮件分类
 机器学习之异常检测
 降维算法学习
 手写数字识别实现
 动态规划训练之十七
 概率期望训练之三
 数据结构训练之四
 绵阳东辰国际test201910.25

原文地址：https://www.cnblogs.com/htoooth/p/7667741.html

Copyright © 2011-2022 走看看