推56论坛

 找回密码
 立即注册(限中文)

QQ登录

只需一步,快速开始

    查看: 363|回复: 0

    [淘宝客推广] 搜索引擎蜘蛛的工作原理和工作流程

    [复制链接]
    发表于 2017-6-14 17:21:13 | 显示全部楼层 |阅读模式
    搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。
    一、搜索引擎蜘蛛的基本原理
    搜索引擎蜘蛛Spider,是一个很形象的名字,把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
    网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
    如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
    对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。
    因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
    对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
    二、追踪链接
    由于搜索引擎蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。
    整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。
    三、搜索引擎蜘蛛工作中的信息收集
    信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分,“蜘蛛”这个称呼形象的描述除了信息收集模块在网络数据形成的“web”上进行信息获取的功能。
    总体而言,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历WEb的目的。

    学建站、学推广、学赚钱,上56站长论坛就够了!个性签名请到个人资料里面修改……

    本版积分规则

    关闭

    推56站长论坛推荐上一条 /3 下一条

    站长QQ
    在线咨询
    咨询热线
    QQ:405327411
    站长

    QQ|广告合作|关于我们|联系我们|免责声明|网站导航|站长论坛 ( 豫ICP备11018337号-5

    王宝臣旗下网站 推56论坛(www.tui56.com|ask.tui56.com|blog.tui56.com|daohang.tui56.com)

    Powered by Discuz! X3.4 Licensed

    ©2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表