zoukankan      html  css  js  c++  java
  • 搜索引擎使用

    原视频https://www.bilibili.com/video/BV1w54y1q7uf

    搜索引擎大致分为:爬虫,索引,搜索,排序4个阶段

    爬虫需要遵循robots.txt,他会限制爬虫爬取信息

    如淘宝就限制了百度的爬虫

     

     淘宝等网站限制一些爬虫爬取的原因我个人认为有3点:

    1.可能爬取用户登陆后的一些信息,安全系数不高

    2.影响网站内部推荐,影响流量

    3.大量的爬虫访问爬取,对服务器请求多,影响其他用户体验

    那么如何让搜索引擎更好的检索内容呢?

    这是评论区的课代表记得的,比较完整

    *标点符号均为英文,以谷歌为例,大部分百度或其他搜索引擎同样支持

    1.准确搜索:

    给关键词加上英文双引号 eg: “人工智能算法”

    2. 排除关键词:

    在搜索内容后面加上空格减号需要排除的关键词 eg: 苹果 -iPhone -iPad

    3. 用OR逻辑搜索:

    用大写的OR和空格隔开关键词 eg: 百度 OR 谷歌

    4. 模糊搜索:用*代替文字或单词

    eg: study * home

    5. filetype:

    在关键词后加上filetype:文件类型 eg: 高等数学 filetype:pdf

    6. site:

    在关键词后加上site:指定的网站 eg: 后浪 site:bilibili.com

    7. inurl/allinurl:

    site是在一个网站搜索,而inurl是在多个网站搜索

    在关键词后加上inurl:需要筛选的url关键字,allinurl必须同时包含关键词 eg: 民法典 inurl:gov.cn

    8. intitle/allintitle:

    在关键词后加上intitle:需要筛选的title关键字,allintitle必须同时包含关键词 eg: machine learning intitle:stanford mit

    9. define:

    通过define:关键词得到准确定义 eg: define:internet

    组合示例:"machine learning" -vision -drive site:stanford.edu filetype:pdf

  • 相关阅读:
    day01-h1字体大小和文本居中
    js正则表达式中的
    js滚动分页原理
    在web.xml中设置全局编码
    C# 导出word 表格代码
    C# 创建单例
    Winform 异步调用2 时间
    Winform 异步调用
    c#中跨线程调用windows窗体控件
    C# 中的委托和事件
  • 原文地址:https://www.cnblogs.com/caishunzhe/p/13297779.html
Copyright © 2011-2022 走看看