国外技术文档翻译:drupal站点中如何自定义添加robots.tx

网站推广,我们都要写一个robots.txt文件,这个是啥文件类?这是搜索引擎访问网站第一个要查看的文件,蜘蛛会根据robots.txt内容那些是可以访问的,简单说,就是你希望蜘蛛去访问你网站那些内容,那些不被访问,如你的网站如果建设过程中,不希望搜索引擎开始收录,等网站正式运营后,才运行蜘蛛爬行,那么我们就可以在网站根目录下新建一个robots.txt文件,告诉搜索引擎暂时别来,我现在不需要您。记得,robots.txt一定要小写哦,不能大写。文本将在drupal站点的中如何添加一个自定义robots.txt文件来引导蜘蛛爬行网站内容。下面我们来就看一下面的详细说明。下面我们就一起来学习下吧。如何创建一个robots.txt文件简单的回答:在您php虚拟主机上相应站点的根目录。详细的回答:比方说,蜘蛛要爬“http://www.gaosudu.com/shop/index.html”,它是会把“/shop/index.html”移除掉,并把“/robots.txt”置换上去,也就是最终访问“http://ww.gaosudu.com/robots.txt”。所以呢作为网站所有者的我们需要将robots.txt放在服务器正确的地方。通常情况下是您放主索引页面的地方,当然这一切都要取决于您WEB服务器配置。NOTE:记得要用小写字母“robots.txt”,而不要用“Robots.TXT”去命名您的robots.txt文件。在robots.txt文件中应该放些什么指令Robots.txt是一个文本文件,通常情况下包含下列记录。User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/在上面的指令中,有三个目录是禁止蜘蛛访问的。NOTE:一个目录占一行。不要使用在一单行使用“Disallow:/cgi-bin/ /tmp/”这样的格式,并且不要插入空白行!也要注意的是,通配符和正则表达式在User-agent或者是Disallow里都是不被支持的。*符号对User-agent字段的的意义就是任何蜘蛛的意思。尤其的是不能用“User-agent:*bot*”,和“Disallow: *.gif”。当然这一切都要以您的服务器的配置环境来决定,下面就跟随高速度 主机(www.gaosudu.com)一起来看一些例子。User-agent: *Disallow: /这两句是拒绝所有的蜘蛛访问我们的站点。当然把“Disallow:/”的这一“/”去掉话就是允许访问服务器上的所有文件。把“/”去掉的话也就等于不创建robots.txt文件了。User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/这里是禁止访问php虚拟主机上的部分文件夹。User-agent: BadBotDisallow: /禁止单一蜘蛛。User-agent: baiduDisallow:User-agent: *Disallow: /只允许baidu蜘蛛。User-agent: *Disallow: /~joe/stuff/只能访问这一个文件夹。OK,看完上面这么多例子,是不是对robots.txt文件了解更多了呢?!当然,不要试图用robots.txt来隐藏您的文件信息,因为这个文件是在公共文件区!别人要用恶意的蜘蛛来扫描您站点的安全漏洞,这个robots.txt是可以被被忽视的。原文地址:http://www.robotstxt.org/robotstxt.html 纯Linux环境下高端免备案【香港独立IP地址】 php空间,仅仅只需199元一年起。商务中国域名核心代理直销50元注册国际顶级域名

本文地址:https://www.gaosudu.com/drupal/8025.html