zoukankan      html  css  js  c++  java
  • 一只简单的网络爬虫(基于linux C/C++)————支持动态模块加载

    插件在软件设计中有很大的好处,可以方便地扩展各种功能,使用插件技术能够在分析、设计、开发、项目计划、协作生产和产品扩展等很多方面带来好处:
    (1)结构清晰、易于理解。由于借鉴了硬件总线的结构,而且各个插件之间是相互独立的,所以结构非常清晰也更容易理解。
    (2)易修改、可维护性强。由于插件与宿主程序之间通过接口联系,就像硬件插卡一样,可以被随时删除,插入和修改,所以结构很灵活,容易修改,方便软件的升级和维护。
    (3)可移植性强、重用力度大。因为插件本身就是由一系列小的功能结构组成,而且通过接口向外部提供自己的服务,所以复用力度更大,移植也更加方便。
    (4)结构容易调整。系统功能的增加或减少,只需相应的增删插件,而不影响整个体系结构,因此能方便的实现结构调整。:
    (5)插件之间的耦合度较低。由于插件通过与宿主程序通信来实现插件与插件,插件与宿主程序间的通信,所以插件之间的耦合度更低。
    (6)可以在软件开发的过程中修改应用程序。由于采用了插件的结构,可以在软件的开发过程中随时修改插件,也可以在应用程序发行之后,通过补丁包的形式增删插件,通过这种形式达到修改应用程序的目的。
    (7)灵活多变的软件开发方式。可以根据资源的实际情况来调整开发的方式,资源充足可以开发所有的插件,资源不充足可以选择开发部分插件,也可以请第三方的厂商开发,用户也可以根据自己的需要进行开发。
    linux下面和动态连接相关的函数是dlopen、dlsym和dlclose
    使用时在dlopen()函数以指定模式打开指定的动态链接库文件,并返回一个句柄给dlsym()的调用进程。使用dlclose()来卸载打开的库
    这里写图片描述
    dlopen
    功能:打开一个动态链接库
    包含头文件: dlfcn.h
    函数定义: void * dlopen( const char * pathname, int mode );
    函数描述: 在dlopen的()函数以指定模式打开指定的动态连接库文件,并返回一个句柄给调用进程。使用dlclose()来卸载打开的库。
      mode:模式有下面这些
      RTLD_LAZY 暂缓决定,等有需要时再解出符号
      RTLD_NOW 立即决定,返回前解除所有未决定的符号。
      RTLD_LOCAL
      RTLD_GLOBAL 允许导出符号
      RTLD_GROUP
      RTLD_WORLD
    返回值: 打开错误返回NULL ,成功,返回库引用 ,编译时候要加入 -ldl (指定dl库)
    这里写图片描述
    dlsym
    功能:根据动态链接库操作句柄与符号,返回符号对应的地址。
    包含头文件:dlfcn.h
    函数定义:void*dlsym(void* handle,const char* symbol)
    函数描述:dlsym根据动态链接库操作句柄(handle)与符号(symbol),返回符号对应的地址。使用这个函数不但可以获取函数地址,也可以获取变量地址。handle是由dlopen打开动态链接库后返回的指针,symbol就是要求获取的函数或全局变量的名称。
    这里写图片描述
    dlclose
    dlclose用于关闭指定句柄的动态链接库,只有当此动态链接库的使用计数为0时,才会真正被系统卸载。
    这里写图片描述
    在使用的dlsym的时候,可如下所示:

    假设在my.so中定义了一个void mytest()函数,那在使用my.so时先声明一个函数指针:
    void(*pMytest)();
    接下来先将那个my.so载入:
    pHandle=dlopen("my.so",RTLD_LAZY);//详见dlopen函数
    然后使用dlsym函数将函数指针 pMytest 指向 mytest() 函数:
    pMytest=(void(*)())dlsym(pHandle,"mytest");//可见放在双引号中的mytest不用加括号,即使有参数也不用
    (可调用dlerror();返回错误信息,正确返回为空)

    这是单个函数的情况,比较容易理解,符号(symbol)就是我们要加载的函数名称。那么如果有多个函数呢?难道需要多次使用该函数加载动态库里面的函数吗???因为dlopen()加载库中的符号,这些符号在编译的时候是不知道的,而且这个符号(symbol)并没有说一定要是函数,因此我们可以使用结构体或其他数据结构把若干函数封装。然后获取该结构体,便可以使用里面的函数了。需要注意的是,我们在使用dlsym加载符号(symbol)的时候,这个符号(symbol)的名称一定要和我们在模块中的结构体的名称一样。爬虫的动态加载如下所示:

    //动态加载模块
    //路径,模块名称,路径必须是绝对路径
    Module * dso_load(const char *path, const char *name)//模块名称
    {
        void *rv = NULL;
        void *handle = NULL;
        Module *module = NULL;
        //字符串连接
        char * npath = strcat2(3, path, name, ".so");//path+name+.so
        //dlopen以指定模式打开指定的动态链接库文件,
        //并返回一个句柄给dlsym()的调用进程。使用dlclose()来卸载打开的库
        //编译时候要加入 -ldl (指定dl库)
        if ((handle = dlopen(npath, RTLD_GLOBAL | RTLD_NOW)) == NULL) 
        {   
            SPIDER_LOG(SPIDER_LEVEL_ERROR, "Load module fail(dlopen): %s", dlerror());
        }
        //void*dlsym(void*handle,constchar*symbol)
        //handle:由dlopen打开动态链接库后返回的指针;
        //symbol:要求获取的函数或全局变量的名称。
        //返回值:void* 指向函数的地址,供调用使用。
        if ((rv = dlsym(handle, name)) == NULL) 
        {
            SPIDER_LOG(SPIDER_LEVEL_ERROR, "Load module fail(dlsym): %s", dlerror());
        }
        // name也是结构体的名称,因此可以返回一个结构体
        module = (Module *)rv;
        module->init(module);//载入的时候调用init函数
    
        return module;
    }

    其中Module结构体如下:

    //模块描述结构
    typedef struct Module
    {
        int  version;//主版本号
        int  minor_version;//次版本号
        const char  *name;//模块名称
        void (*init)(Module *);//初始化函数
        int (*handle)(void *);//处理函数
    } Module;

    我们只需将所有的函数封装在该结构体内,然后返回一个这样的结构体,就可以通过该结构体使用里面的函数
    下面看一个简单的动态模块的例子:

    #include "dso.h"
    #include "url.h"
    
    static int handler(void * data) 
    {
        Surl *url = (Surl *)data;
        if (url->level > g_conf->max_depth)
            return MODULE_ERR;
        return MODULE_OK;
    }
    
    static void init(Module *mod)
    {
        SPIDER_ADD_MODULE_PRE_SURL(mod);
    }
    
    Module maxdepth = {
        STANDARD_MODULE_STUFF,
        init,
        handler
    };
    

    该模块实现了两个函数,然后封装在模块maxdepth中,因此dlsym(handle, name)中的name就应该是maxdepth,才可以正确返回该符号,最好是再使用(Module *)进行一下类型转换。

  • 相关阅读:
    套接口编程理论基础:正常启动
    套接口编程理论基础:服务器进程终止
    套接口编程理论基础:处理SIGCHLD信号
    分区表、分区索引
    IPC通信:Posix消息队列读,写
    IPC通信:Posix消息队列的创建,关闭,删除
    RBAC的资料
    关于RBAC的学习资料
    RSS你会用了吗?答曰:不会
    RBAC的资料
  • 原文地址:https://www.cnblogs.com/sigma0-/p/12630469.html
Copyright © 2011-2022 走看看