自定义worker的方法，及一例

zoukankan html css js c++ java

自定义worker的方法，及一例
自定义的worker用于处理各种特殊需求。

有网友想用html_json提取雪球网（https://xueqiu.com/）的数据，可是雪球网用了反爬虫技术，网站要求有cookies才能访问到json文件，否则不让访问。在普通的浏览器上，先访问一下首页就有cookies了。

于是写一个雪球网专用的worker，基本复用html_json。它先访问雪球的首页获取cookies，再用这个cookies访问json文件，然后再把json文件交给html_json的代码处理数据。

写一个worker，只要准备两个函数就可以了：

1、用@worker('xueqiu')装饰的函数是xueqiu的worker，它有两个参数：
- 参数data_dict是保存信息源data内容的字典，也就是驱动worker工作的数据，是由下面那个函数生成的。
- 参数worker_dict也是字典，可以存放一些动态数据，供下次运行此worker时使用。这里没有用到它。
如果在运行worker时出现异常，可以用c_worker_exception(title, url='', summary='')生成一条异常信息，以便更清晰地向用户描述出现的问题，具体方法可参考html_re、html_json。

2、用@dataparser('xueqiu')装饰的函数是xueqiu的xml解析器，它的作用是把信息源xml里的data翻译成一个字典，也就是worker的参数data_dict。有一个参数：
- 参数xml_string是信息源xml文件的完整内容，一个字符串。
把程序以utf-8编码保存为xueqiu.py，放到src/workers目录下，重启程序就可以用了。

实际用法和html_json完全一样，只不过xml里的worker要换成xueqiu。
# coding=utf-8
import urllib.request from http.cookiejar import CookieJar from worker_manage import worker, dataparser from . import html_json ua = ('Mozilla/5.0 (Windows NT 6.1; rv:38.0)' ' Gecko/20100101 Firefox/38.0') # 从首页得到cookies def get_cookies(): # build opener proxy = urllib.request.ProxyHandler({}) cj = urllib.request.HTTPCookieProcessor(CookieJar()) opener = urllib.request.build_opener(proxy, cj) # request req = urllib.request.Request('https://xueqiu.com/') req.add_header('User-Agent', ua) # open r = opener.open(req) return cj # 下载指定网址 def get_url(cj, url): # build opener proxy = urllib.request.ProxyHandler({}) opener = urllib.request.build_opener(proxy, cj) # request req = urllib.request.Request(url) req.add_header('User-Agent', ua) # open r = opener.open(req) ret_data = r.read().decode('utf-8') return ret_data @worker('xueqiu') def xueqiu_worker(data_dict, worker_dict): # 得到cookies cj = get_cookies() # 用cookies下载指定网址 url = data_dict['url'] string = get_url(cj, url) # 用html_json解析数据 return html_json.parse_html(data_dict, url, string) @dataparser('xueqiu') def xueqiu_parser(xml_string): return html_json.html_json_parser(xml_string)
这个worker很简陋，没有考虑网络超时、自动重试，也没有用c_worker_exception生成更清晰的异常信息。

如果用它抓取的是国内金融交易数据，还可以精益求精，加上时间判断，在非交易时段直接返回一个空列表。
查看全文

相关阅读:
1203正规式转换为有穷自动机
 访问本班同学的博客
 0312复利计算3
操作系统
 0311复利计算2
0309简单的复利计算
 0302IT行业虽吃香，能完全享受这块“香"的也很难
 12.30递归下降语义分析
 1203正规式转换为有穷自动机
 对10位同学的文法解释和语法树的评论

原文地址：https://www.cnblogs.com/infopi/p/6269445.html