管理 SharePoint Server 2010 的爬网删除策略
大家好,我是 Hal Zucati,目前是企业版搜索用户辅助的一位撰稿人。我想与大家分享关于如何管理 SharePoint Server 2010 爬网删除策略的一些信息。
当爬网组件(爬网程序)在爬网期间遇到间歇性错误时,SharePoint Server 2010 使用四个策略来控制内容的意外删除。这些策略由 Search Service 应用程序上的属性控制,这些策略还确定某项在连续爬网时的重试次数和时间长度。
下面介绍针对属性(加粗)的四个策略和默认值。
针对“拒绝访问”或“未找到文件”的删除策略
当爬网程序遇到“拒绝访问”或“未找到文件”错误时,如果遇到错误的连续爬网次数超过 ErrorDeleteCountAllowed 中的值并且从第一个错误算起的持续时间长于 ErrorDeleteIntervalAllowed 中的小时数,则从查询组件搜索索引中删除索引项。如果仅符合上述两个条件之一,则重试该索引项。
ErrorDeleteCountAllowed 的默认值为 30,ErrorDeleteIntervalAllowed 为 720 小时(30 天)。
针对所有其他错误的删除策略
当爬网程序遇到“拒绝访问”或“未找到文件”之外的错误时,如果遇到错误的连续爬网次数超过 ErrorCountAllowed 中的值并且从第一个错误算起的持续时间长于 ErrorIntervalAllowed 中的小时数,则从搜索索引中删除该项。如果仅符合上述两个条件之一,则重试该项。
ErrorCountAllowed 的默认值为 100,ErrorIntervalAllowed 为 1440 小时(60 天)。
针对 SharePoint 内容的再爬网策略
此策略仅适用于 SharePoint 内容。如果爬网程序在从 SharePoint 内容数据库提取更改时遇到错误的连续爬网次数达到 RecrawlErrorCount 中的值并且从第一个错误算起的持续时间达到 RecrawlIntervalCount 中的小时数,则爬网程序将强制对该内容数据库再爬网。
RecrawlErrorCount 的默认值为 10,RecrawlIntervalCount 为 360 小时(15 天)。
“删除未访问的项”策略
在对内容源的完全爬网过程中,爬网程序执行一个“删除未访问的项”阶段,期间它删除在爬网历史记录中存在但是在当前完全爬网中未找到的项。此策略由属性 DeleteUnvisitedMethod 公开,它确定在此阶段应删除的项。有三个可能的值:
- 当 DeleteUnvisitedMethod 为 0 时,删除所有未访问的项。
- 当 DeleteUnvisitedMethod 为 1(默认值)时,保留作为在内容源中指定的开始地址的主机,删除按照其他主机链接发现的未访问的项。
-
当 DeleteUnvisitedMethod 为 2 时,不删除任何未访问的项。
如何查看或更改这些值?
只能通过 SharePoint Server 2010 的 Windows PowerShell 在 Search Service 应用程序中更改上述每个属性值。
要更改这些属性,请执行下��操作:
- 确认您在执行此过程的计算机上有相应的权限。
- 从 Windows“开始”(Start)菜单中,导航到“所有程序”(All Programs)。
- 导航到“Microsoft SharePoint 2010 产品”(Microsoft SharePoint 2010 Products),然后单击“SharePoint 2010 Management Shell”。
- 使用 GET 命令检索所需的搜索应用程序对象,如下所示: $SearchApplication = Get-SPEnterpriseSearchServiceApplication
要查看属性的当前值,请使用以下命令:
$SearchApplication.GetProperty("PropertyName")
要更改属性的值,请使用以下命令:
$SearchApplication.SetProperty("PropertyName", NewValue)
有关详细信息,请参阅 Get-SPEnterpriseSearchServiceApplication (http://technet.microsoft.com/zh-cn/library/ff608050.aspx)。
感谢您阅读本文。如果您有任何反馈,请发表评论。
这是一篇本地化的博客文章。请访问 Managing crawl deletion policies for SharePoint Server 2010 以查看原文