您的位置 >>> 星想互联 >>> SEO优化 >>> SEO基础
什么是搜索引擎蜘蛛?
点击数:1936  发布时间2014-11-23 20:44:07

什么是搜索引擎蜘蛛?



 搜素引擎抓取网站页面主要靠的是蜘蛛程序也就是我们常说的爬虫。正是因为有了这个程序,我们的网站才能被搜索引擎收录和查到。我们做 seo,就是把网站设置的对蜘蛛程序更友好。所以我们随着学习的深入,还要仔细地研究这个小东东。网站对搜索引擎蜘蛛不友好的 10 点因素:
  
1.动态 url。 
动态 url 就是数据库驱动的网站所生成的带有符号、随机的 url。相比静态 url,动态 url 不利于搜索引擎蜘蛛的爬行及抓取。这也就是网站 seo 优化时需要静态化或者伪静态化 url 的原因,因为笔者只用过 wp,之前也只提到过 wp 网站 seo 优化如何伪静态化 url。 
  
2.死链。 
通俗的讲,死链就是无法打开的链接。搜索引擎蜘蛛如果在网站内爬行,却屡屡遭受无法打开页面的煎熬。显然,如此一来该网站对于搜索引擎蜘蛛来说正在逐渐的失去信任。 
  
3.各种跳转。 
这个指的是通过不同的技术或指令,自动将一个网页跳转到另一个网页。目前搜索引擎比较支持的是 301 跳转,但是这往往被黑帽seo 所利用,从而导致搜索引擎蜘蛛对其比较敏感。 
  
4.flash 动画。 
很多网站都会在页面上添加 flash 动画,但是搜索引擎蜘蛛说到底只是一个程序,它不能像人一样观看老姐 flash 动画的内容。虽然搜索引擎一直在这方面努力,但是以目前的搜索引擎蜘蛛技术还不能完全有效的抓取 flash 的内容。另外,如果在网站上出现了 flash 动画,搜索引擎都建议添加相应的文字描述,以便搜索引擎蜘蛛较直观的了解 flash 动画内容。 
  
5.js 代码。 
搜索引擎蜘蛛对抓取 js 代码也是比较困难的,大量的 js 代码会严重影响搜索引擎蜘蛛抓取的速度。所以,网站 seo 优化时要尽量避免,或者少用 js 代码。 
  
6.框架结构。 
使用框结构设计网页流行于互联网诞生初期,但是由于不便于搜索引擎蜘蛛的抓取而被抛弃。在做网站 seo 优化时,应当完全摒弃框架结构,甚至不需要了解它。 
  
7.必须登录浏览网站。 
很多网站有部分甚至全部内容需要注册登陆后才能浏览,大部分社会化媒体(如 sns 网站、微博等)即是如此。但是你必须要知道,搜索引擎蜘蛛不会填写用户名密码,更不会注册。 
  
8.session id。session id 是为了跟踪每一位访问用户,生成唯一的 sessionid,并加在 url 中。而这种仅仅 session id 不同的 url 的实际页面内容是相同的,从会导致搜索引擎蜘蛛的重复收录。 
  
9.强制使用 cookies。 
搜索引擎蜘蛛实际是禁用 cookies 的,如果不启用 cookies 就无法正常显示内容的话,搜索引擎蜘蛛就无法看见网页的内容。 
  
10.不稳定的服务器。 
如果网站因为服务器的问题经常性的无法正常访问,久而久之, 
搜索引擎蜘蛛爬到你的域名上却时常“碰壁” 
,搜索引擎蜘蛛自然而然的就会认为这个网站不靠谱。如此一来,网站也将失去搜索引擎蜘蛛的信任。网络蜘蛛基本原理搜索引擎主要是由蜘蛛程序(网页爬行器爬虫)、切词器、索引器、查询器几个部分组成。蜘蛛程序主要负责页面的抓取, 
与切词器、索引器一起共同对网页内容进行分词处理,建立索引数据库。查询器主要是根据用户的查询条件检索索引数据库,并对索引结构进行计算和排名,并提取简要摘要反馈给用户。 
  
网络蜘蛛即 Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G 字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K 计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。搜索引擎蜘蛛抓取策略由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A 为起始网页,属于 0 层,B、C、D、E、F 属于第 1 层,G、H 属于第 2 层,I 属于第 3 层。如果网络蜘蛛设置的访问层数为 2 的话,网页 I 是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。 

来源:星想互联
【上一篇】IP 和 PV 关系
【下一篇】什么是网站权重?