Board logo

标题: 问个小问题,备案已经通过了。能不能加个论坛玩玩? [打印本页]

作者: sinokid     时间: 2008-11-17 05:37 PM     标题: 问个小问题,备案已经通过了。能不能加个论坛玩玩?

我博客站通过备案了,想在域名下弄个小论坛跟几个熟人热闹下。
论坛内容谈不上什么非法,但也不适合光明正大地去说。
因此决定用个robots文件去限制搜索引擎。
大家觉得可行么?
作者: domin     时间: 2008-11-17 05:39 PM

不可行
作者: CGrrr     时间: 2008-11-17 06:58 PM

相当不可行
作者: 92uu     时间: 2008-11-17 07:17 PM

你搬到国外撤掉备案可行
作者: An_Apple     时间: 2008-11-18 01:07 PM

建议站长们把百度给屏蔽了,估计百度也会做一个某某站长的镜像论坛,像传说中的“百度有啊”一样。
作者: 死猴子     时间: 2008-12-5 01:47 PM

- -百度有这么可怕么
作者: An_Apple     时间: 2008-12-5 07:07 PM



QUOTE:
原帖由 死猴子 于 2008-12-5 01:47 PM 发表
- -百度有这么可怕么
百度 一下,你就知道了。
作者: hc4u     时间: 2008-12-6 10:40 AM

User-agent: Baiduspider
Disallow: /


百度无视robots的- -

NND 我都屏蔽百度好几个月了 还是收录我的页面 我靠- -
作者: sinokid     时间: 2008-12-8 10:07 AM



QUOTE:
原帖由 hc4u 于 2008-12-6 10:40 AM 发表
User-agent: Baiduspider
Disallow: /


百度无视robots的- -

NND 我都屏蔽百度好几个月了 还是收录我的页面 我靠- -
百度是个大流氓。
要屏蔽它只能屏蔽它蜘蛛的IP才可以。
作者: domin     时间: 2008-12-8 01:07 PM

用.htaccess屏蔽它的User-Agent标识就行.
作者: hc4u     时间: 2008-12-8 03:51 PM

好像现在屏蔽baiduspider已经成为一种时尚,难道这玩意也跟着纳斯达克变?

  首先我自己不会屏蔽baiduspider,也不大相信baiduspider会故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可尝试以下方法:

  1. 上传一个robots.txt到根目录,内容为:

  User-agent: baiduspider

  Disallow: /

  一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表,baiduspider还无法高级到故意忽略某些网站的robots.txt,不知道baiduspider怎么折腾才能让robots.txt失效。

  2. 如果仅仅因为服务器吃不消,不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。

  3. 如果还没有办法,可尝试.htaccess屏蔽,上传一个.htaccess文件到根目录,内容为:

  SetEnvIfNoCase User-Agent ^baiduspider ban_bot

  deny from env=ban_bot

  还可以扩大这个列表,屏蔽那些Email提取爬虫、网站克隆爬虫等(小偷一般不守法,但总比自己什么都不做强):

  SetEnvIfNoCase User-Agent ^baiduspider ban_bot

  SetEnvIfNoCase User-Agent ^HTTrack ban_bot

  SetEnvIfNoCase User-Agent ^EmailCollector ban_bot

  SetEnvIfNoCase User-Agent ^EmailWolf ban_bot

  SetEnvIfNoCase User-Agent ^ExtractorPro ban_bot

  SetEnvIfNoCase User-Agent ^Offline ban_bot

  SetEnvIfNoCase User-Agent ^WebCopier ban_bot

  SetEnvIfNoCase User-Agent ^Webdupe ban_bot

  SetEnvIfNoCase User-Agent ^WebZIP ban_bot

  SetEnvIfNoCase User-Agent ^Web Downloader ban_bot

  SetEnvIfNoCase User-Agent ^WebAuto ban_bot

  SetEnvIfNoCase User-Agent ^WebCapture ban_bot

  SetEnvIfNoCase User-Agent ^WebMirror ban_bot

  SetEnvIfNoCase User-Agent ^WebStripper ban_bot

  deny from env=ban_bot

  .htaccess要用文本方式上传,有些Apache配置比较怪异,防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常,再用FlashGet模拟baiduspider测试这个.htaccess是否工作,方法是:

  FlashGet-工具-选项-协议,把HTTP用户代理改成用户自定义:baiduspider;然后用FlashGet下载该网站任意页面,在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功.



================================================

弄了這個東西,回頭觀察下SB百度的動作了- -




欢迎光临 梦游时光互联 (http://web.meyu.net./) Powered by Discuz! 4.0.0