LxmlLinkExtractor类参数解析

zoukankan html css js c++ java

LxmlLinkExtractor类参数解析
LxmlLinkExtractor

LxmlLinkExtractor 是一种强大的链接提取器，使用他能很方便的进行选项过滤，他是通过xml中强大的HTMLParser实现的

源代码如下：
```
class LxmlLinkExtractor(FilteringLinkExtractor):

    def __init__(self, allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(),
                 tags=('a', 'area'), attrs=('href',), canonicalize=False,
                 unique=True, process_value=None, deny_extensions=None, restrict_css=(),
                 strip=True):
    tags, attrs = set(arg_to_iter(tags)), set(arg_to_iter(attrs))
        tag_func = lambda x: x in tags
        attr_func = lambda x: x in attrs
        lx = LxmlParserLinkExtractor(
            tag=tag_func,
            attr=attr_func,
            unique=unique,
            process=process_value,
            strip=strip,
            canonicalized=canonicalize
        )

        super(LxmlLinkExtractor, self).__init__(lx, allow=allow, deny=deny,
            allow_domains=allow_domains, deny_domains=deny_domains,
            restrict_xpaths=restrict_xpaths, restrict_css=restrict_css,
            canonicalize=canonicalize, deny_extensions=deny_extensions)

    def extract_links(self, response):
        base_url = get_base_url(response)
        if self.restrict_xpaths:
            docs = [subdoc
                    for x in self.restrict_xpaths
                    for subdoc in response.xpath(x)]
        else:
            docs = [response.selector]
        all_links = []
        for doc in docs:
            links = self._extract_links(doc, response.url, response.encoding, base_url)
            all_links.extend(self._process_links(links))
        return unique_list(all_links)
```
参数说明：
- allow=(一个正则表达式或者正则表达式的列表) 只有与之相匹配的url才能被提取出来
- deny=(一个正则表达式或者正则表达式的列表) 一个正则表达式（或正则表达式列表），（绝对）urls必须匹配才能排除（即不提取）。它优先于allow参数。如果没有给出（或为空），它不会排除任何链接。
- allow_domains=(str或者list) 允许提取链接的域名的字符串列表或者单个字符串，例如：allow_domain = ['baidu.com']则只能提取baidu.com的域名内的链接
- deny_domains=() 与上述的意思刚刚相反
- restrict_xpaths=(str或list) - 是一个XPath（或XPath的列表），它定义响应中应从中提取链接的区域。如果给出，只有那些XPath选择的文本将被扫描链接。
- targs=('a','area') 标签或在提取链接时要考虑的标签列表。默认为。('a', 'area') 也就是默认只有a标签与area标签的链接才能被提取
- attrs=('href',) 在查找要提取的链接时应该考虑的属性或属性列表（仅适用于参数中指定的那些标签tags ）。默认为('href',)
- cononicalize=(boolean) 规范化每个提取的url（使用w3lib.url.canonicalize_url）。默认为True。
- unique=(boolean) 是否应对提取的链接应用重复过滤。
- process_value=(callable) 接收从标签提取的每个值和扫描的属性并且可以修改值并返回新值的函数，或者返回None以完全忽略链接。如果没有给出，那么process_value默认为:lambda x:x
  例如，要从此代码中提取链接：
```
<a href="javascript:goToPage('../other/page.html'); return false">Link text</a>
```
您可以使用以下功能process_value：
```
def process_value(value):
    m = re.search("javascript:goToPage('(.*?)'", value)
    if m:
        return m.group(1)
```
- deny_extensions=(list) -包含在提取链接时应该忽略的扩展的单个值或字符串列表。如果没有给出，它将默认为IGNORED_EXTENSIONS在scrapy.linkextractors包中定义的列表。
- restrict_css=() 一个CSS选择器（或选择器列表），用于定义响应中应提取链接的区域。有相同的行为restrict_xpaths。
- strip=True 这个是把地址前后多余的空格删除，很有必要
查看全文

相关阅读:
pycharm使用
 python上手之环境搭建
 LDA浅析转
 矩阵按列按行归一化到L2范数的原理和最精简Matlab代码（转）
(转)Low-Mid-High
菲波纳数列的特性
 劝狼赋
 asp.net mvc Controller 模式下的 aop
android for vs （三）visual studio android 发布为 apk
android for vs （二）visual studio android 开发实例

原文地址：https://www.cnblogs.com/Mr-a2z/p/8258640.html

LxmlLinkExtractor类参数解析

LxmlLinkExtractor

LxmlLinkExtractor 是一种强大的链接提取器，使用他能很方便的进行选项过滤，他是通过xml中强大的HTMLParser实现的

参数说明：