发布于 2018-01-20 12:36:50 541次浏览, 若为非敏感信息,则可以使用 robots.txt 阻止不必要的抓取,“robots.txt”文件会告诉搜索引擎它们是否可以访问您网站的各个部分并执行抓取。此文件必须命名为“robots.txt”,且应位于网站的根目录下。被 robots.txt 阻止的网页也可能会被抓取,因此您应使用更安全的方法保护敏感网页。,Google官方robots.txt系列(1):
Robots.txt 并不是一个适当或有效的方式。它只会告知运行良好的抓取工具不要抓取相应网页,却不会阻止您的服务器将这些网页发送给请求它们的浏览器。其中一个原因是:如果互联网上的某处(例如引荐来源网址日志)恰好存在指向这些被禁止访问的网址的链接,那么搜索引擎仍然能够引用这些网址(仅显示网址,但不显示标题或摘要)。此外,未同意遵守《漫游器排除标准》的不合规搜索引擎或流氓搜索引擎可能会违反您的 robots.txt 文件中的指令。最后,用户可能会出于好奇查看您的 robots.txt 文件中的目录或子目录,并猜测您不想被看见的内容的网址。,在这些情况下,如果您只是希望网页不显示在 Google 中,则可使用 noindex 标记,无需担心任何用户会通过链接访问该网页。然而,为了做到真正的安全,您应该使用合适的授权方法(例如需要用户密码才能访问)或将网页从网站上彻底移除。,Google官方robots.txt系列(2):
。转载请注明来源地址:黑帽SEO http://www.heimao.wiki 专注于SEO培训,快速排名你知道网站关键词该怎么布局吗?
(黑帽SEO技术,网站快速排名,蜘蛛池加速收录,目录程序定制)
扫一下添加微信:
版权声明:本文为 “黑帽百科” 原创文章,转载请附上原文出处链接及本声明;
工作时间:10:00~22:00
客服电话
电子邮件
hack66666@foxamil.com
扫码二维码
获取最新动态