当前位置:昆明SEO > SEO基础 > 采风文学屋:robots.txt协议有什么用?

采风文学屋:robots.txt协议有什么用?

发布时间:2019-10-30点击次数:所属分类:SEO基础

采风文学屋:robots.txt协议有什么用?
    Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。robots是我们网站跟各大搜索引擎的一个协议,比如我们不允许百度抓取我们的网站,我们不允许百度抓取我们某个目录,我们不允许360抓取我们的网站,像这些操作,我们都可以写在robots协议中,当然这个写法是非常简单的,关于写法我们下面做详细说明,robots写好后,做一个txt文档,命名为:robots.txt 直接放到我们的网站根目录下就可以了,各大引擎抓取我们网站时,首先一定是访问robots协议,如果我们允许抓取,它们才会抓取我们的网站。
 
    robots.txt协议与SEO优化的关系
 
    robots协议对于SEO优化来说,意义是非常大的,举例说明:我们都知道搜索引擎抓取我们站点,如果全部抓取到静态优质页面,百度会非常信任我们的站点,从而给我们一个好的排名,但是如果蜘蛛抓取的都是一些系统界面,比如网站后台、存放图片的目录、系统核心文件目录,这不仅仅浪费了蜘蛛资源,并且也让蜘蛛都识别不了,从而返回搜索引擎大量未知页面,这样就会影响我们在百度中的信任评分,对于我们排名就会有一定的阻碍。
 
    同时robots协议也是我们节约服务器资源的一个方法,比如:淘宝是屏蔽所有搜索引擎的,一个网站页面越多,搜索引擎派出的蜘蛛就越多,引擎蜘蛛和用户一样访问我们网站也是会消耗我们服务器资源的,如果我们的服务器配置不是很高,页面几千万的话,蜘蛛量每天是巨大的,就会拖垮我们的服务器,这对用户正常访问就形成了阻碍,所以合理运营robots协议,对我们网站正常运营也是非常有意义的。
 
robots.txt协议有什么用?如何正确编写?
    robots.txt协议如何写?
 
    下面代代SEO就为大家讲解一些经常用到的robots写法规则,希望能帮助到大家:
 
    robots基本写法:
 
    User-agent: *                 *代表的所有的搜索引擎都要按照下面的规则,*是通配符
    Disallow: /admin/             这里定义是禁止爬寻admin目录下面的所有文件和目录
    Disallow: /require/           这里定义是禁止爬寻require目录下面的所有文件和目录
    Disallow: /ABC/               这里定义是禁止爬寻ABC目录下面的目录
    Disallow: /cgi/*.htm          禁止访问/cgi/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /*?*                禁止访问网站中所有包含问号 (?) 的网址(适用于动态地址)
    Disallow: /.jpg$              禁止抓取网页所有的.jpg格式的图片
    Disallow:/ab/adc.html         禁止爬取ab文件夹下面的adc.html文件。
    Allow: /cgi-bin/             这里定义是允许爬寻cgi-bin目录下面的目录
    Allow: /tmp                   这里定义是允许爬寻tmp的整个目录
    Allow: .htm$                  仅允许访问以".htm"为后缀的URL。
    Allow: .gif$                  允许抓取网页和gif格式图片
    Sitemap:                      网站地图 告诉爬虫这个页面是网站地图
 
    四大常用搜索引擎的蜘蛛标识:
 
    百度蜘蛛:Baiduspider
    360蜘蛛:360Spider
    搜狗蜘蛛:sogou spider
    谷歌蜘蛛:Googlebot 

声明: 本文由昆明SEO(www.yn456.com)收集于网络不代表本站观点,如果您还想了解更多关于SEO培训及网站优化排名、网络营销推广的文章,,请关注昆明SEO