在 Magento和其他电子商务平台的SEO话题中,有一个很常见的问题:怎样写robots.txt文件,里面到底应该包含哪些内容?为了很好滴回答这个问题,我将根据我所有的知识和经验尝试找出一个最佳的robots.txt文件写法,下面部分robots.txt样例是我们为我们客户的Magento网站写的robots.txt文件,有一部分是参考了Magento行业内其他知名研究机构的案例。
请注意不要盲目照搬下面的robots.txt样例到你的Magento网站,它们都是基于普遍情况;而每个 magento网店都可能有自己链接结构,你需要根据自己的链接结构和索引的优先顺序作出一些必要的修改来满足你具体的需求。
Inchoo推荐的 Magento robots.txt 文档样板:
# Google Image Crawler Setup
User-agent: Googlebot-Image
Disallow:
# Crawlers Setup
User-agent: *
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Dissalow: /catalog/product/gallery/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?SID=
对一个普通的magento网店来说,这个robots.txt文件阻止了搜索引擎对部分文件夹和文件的索引,这部分文件夹和文件完全没必要被索引。
某些网店可能希望客户评论被搜索引擎索引和收录,那么只需将“Disallow: /review/”这行从文件中删除;如果你希望Google索引和收录你的 javaScript和 CSS文件,那么只需要删除“Disallow: /*.js$” 、“Disallow: /*.css$”这两行即可(Google公司的Matt Cutts在他的一个视频中说到应该让google索引这javascript和css这些文件)。
其它 Magento服务公司写的 robots.txt文件案例:
BlueAcom写的一个robots.txt案例
User-agent: *
Disallow: /index.php/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.css$
Disallow: /customer/
Disallow: /checkout/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Allow: /media/catalog/product/
Disallow: /*.php$
Disallow: /skin/
Disallow: /catalog/product/view/
User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/
Sitemap: http://example.com/sitemap/sitemap.xml
这是BlueACom写的另外一个robots.txt文件,和我们推荐的样板很像,稍微有一点不同:
# Crawlers Setup
User-agent: *
Crawl-delay: 10
# Allowable Index
Allow: /*?p=
Allow: /media/
# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
# Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
你可以看到,他们允许 ?p 这个参数,但是如果有其他参数同时存在时,他们又禁止这个参数。这个方式相当有趣,它允许“rel prev next”这三个attributes 但又不允许太多attributes同时存在。我还是倾向于用 “noindex, follow”的方式来解决这个问题,但两种方法都不坏。
下面是来自于 Groove Commerce的一个robots.txt文件,和我们使用的很像:
# Groove Commerce Magento Robots.txt 05/2011
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these “robots” where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html
# Website Sitemap
Sitemap: http://www.eckraus.com/sitemap.xml
# Crawlers Setup
# Directories
User-agent: *
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
Disallow: /blog/
# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
以上可见,每个顶级的Magento服务公司对robots.txt文件的处理手法都差不多;你应该分析比较然后根据自己情况得出一个最适合自己的方案或者咨询专业的顾问,而不是盲目滴复制粘贴任何一种到你的网店。
(责任编辑:好模板) |