zoukankan      html  css  js  c++  java
  • 噢百万结果抓取

    import requests
    import re
    from lxml import etree
    
    '''噢百万抓取'''
    
    url = 'http://www.obaiwan.com/hk49/results/'
    
    p = re.compile('''<tr >
    <td  >.+?</td>
    <td  >(.+?)</td>
    <td >(.+?)</td>
    <td ><b style=".+?">(.+?)</b></td>
    <td ><b style=".+?">(.+?)</b></td>
    <td ><b style=".+?">(.+?)</b></td>
    <td ><b style=".+?">(.+?)</b></td>
    <td ><b style=".+?">(.+?)</b></td>
    <td ><b style=".+?">(.+?)</b></td>
    <td  >.+?</td>
    <td >.+?</td>
    <td >.+?</td>
    <td >.+?</td>
    <td >.+?</td>
    <td >.+?</td>
    <td >.+?</td>
    <td ><b style=".+?">(.+?)</b></td>
    </tr>''')
    
    f = open('history.txt','w')
    res = ''
    
    for i in range(2003, 2016):
        year = i
        data = {'qinum':year,'submit':'%CC%E1%BD%BB%B2%E9%D1%AF'}
        r = requests.post(url, data=data)
        r.encoding = 'gb2312'
        matchs = p.findall(r.text)
        for row in matchs:
            res += ','.join(row) + '
    '
            
    f.write(res)
    f.close()
  • 相关阅读:
    SQL中join的用法
    SQL中sysname数据类型的含义(转)
    MVC-Razor视图
    GridView用法
    常见的23种设计模式
    协程
    Kotlin学习
    数据绑定库和MVVM
    LiveData
    函数式编程
  • 原文地址:https://www.cnblogs.com/hhh5460/p/4402470.html
Copyright © 2011-2022 走看看