Joomla之门广告招商,PR=5,alexa 排名2万1

作者 主题: 到底怎样才能阻止soso爬虫?  (阅读 3308 次)

crazy4u

  • Full Member
  • ***
  • 来自:
  • 帖子: 154
  • 声望: +1/-0
  • 上次登录:2010-06-29, 21:39
  • 注册于:2009-04-09, 22:55
    到底怎样才能阻止soso爬虫?
    « 于: 2009-07-04, 21:42 »
    我快气死了,不论怎么弄都阻止不了,看看我用在.htaccess的这段代码有什么问题,为什么不论怎么改都不起作用呢?
    程序代码: [Select]
    Options +FollowSymLinks

    order allow,deny
    deny from 220.181.61.233
    deny from 58.161.164.40
    deny from 124.115.0.
    deny from 124.115.4.
    allow from all


    DeadFire

    • 捐赠会员
    • Full Member
    • *
    • 来自:
    • 帖子: 172
    • 声望: +7/-0
    • 上次登录:2010-08-19, 08:19
    • 注册于:2008-11-14, 10:12
      • 猫和狗
    • 权限至: 2010年12月14日
    我也有类似的问题,怎么改都不能阻止搜索引擎对我的某个目录的搜索。好像完全不起作用似的。
    新用Joomla建设的公司网站:蔚州大酒店


    designer

    • Joomla 中文开发小组
    • Sr. Member
    • *
    • 来自:
    • 帖子: 252
    • 声望: +5/-0
    • 上次登录:今天 14:10
    • 注册于:2008-07-14, 13:44
      改robots.txt文件啊

      dony945

      • Full Member
      • ***
      • 来自:
      • 帖子: 105
      • 声望: +2/-0
      • 上次登录:2010-04-12, 16:08
      • 注册于:2007-06-12, 09:08
        • 开源中文站
        • 电子邮件
      程序代码: [Select]
      <Directory "/XXX/XXX/XXX">
        Options None
        AllowOverride ALL
        Order Deny,Allow
        Deny from 124.115.4. 124.115.0. 64.69.34.135 216.240.136.125 218.15.197.69 155.69.160.99 58.60.13. 121.14.96. 58.60.14. 58.61.164. 202.108.7.209
      </Directory>

       试试。

       垃圾爬虫都不太遵循robots.txt规则的。
      « 最后编辑时间: 2009-07-09, 16:17 作者 白建鹏 »
      开源中文站
      http://www.pccto.com

      crazy4u

      • Full Member
      • ***
      • 来自:
      • 帖子: 154
      • 声望: +1/-0
      • 上次登录:2010-06-29, 21:39
      • 注册于:2009-04-09, 22:55
        采用最流行的方法都起不了作用,不知为什么,我的代码如下,看看哪里有问题?

        程序代码: [Select]
        <Files *>
            Order Allow,Deny
            Allow from All
        Deny from 124.115.0.
        Deny from 124.115.4.
            </Files>
        « 最后编辑时间: 2009-07-10, 06:55 作者 白建鹏 »

        影雪

        • 捐赠会员
        • Jr. Member
        • *
        • 来自:
        • 帖子: 88
        • 声望: +2/-0
        • 上次登录:2010-07-21, 20:48
        • 注册于:2009-11-26, 23:02
        • 学海无涯苦作舟
          • http://shadowsnow.com
        robots.txt .... seo安全用来限制搜索权限的

        User-agent:*
        Disallow :/

        但是soso压根就不遵守robot协议,管你是允许还是禁止先爬回来再说。

        试试<meta name="Robots" contect="none">吧,要是这样都不行...soso也真tmd垃圾
        « 最后编辑时间: 2009-12-03, 22:14 作者 sanion »
        路漫漫而修远兮,吾将上下而求索 [本人开发的免费网赚程序  http://www.shadowsnow.cn/GetForFree/index.asp]

        影雪

        • 捐赠会员
        • Jr. Member
        • *
        • 来自:
        • 帖子: 88
        • 声望: +2/-0
        • 上次登录:2010-07-21, 20:48
        • 注册于:2009-11-26, 23:02
        • 学海无涯苦作舟
          • http://shadowsnow.com
        Apache中禁止IP段,在httpd.conf中的写法
        说明: 控制哪些主机能够访问服务器的一个区域
        语法: Allow from all|host|env=env-variable [host|env=env-variable] ...
        上下文: 目录, .htaccess
        覆盖项: Limit
        状态: Base
        模块: mod_access Allow指令影响哪些主机可以访问服务器的一个区域。可以用主机名、IP地址、 IP地址范围或者其他环境变量中捕获的客户端请求特性来对访问进行控制。 这个指令的第一个参数总是from。随后的参数可以有三种不同形式。 如果指定Allow from all,则允许所有主机访问,需要 Deny和Order指令像下面讨论的那样配置。 要只允许特定一部分主机或主机群访问服务器,host可以用下面任何一种格式来指定:
        一个域名(部分)
        例子:Allow from apache.org
        允许名字与给定字符串匹配或者以该字符串结尾的主机访问。 只有完整的名字组成部分才被匹配,因此上述例子将匹配foo.apache.org而不能匹配fooapache.org。 这样的配置将引起服务器执行一个对客户IP地址的反查域名操作而不管HostnameLookups指令是否设置
        完整的IP地址
        例子:Allow from 10.1.2.3
        允许一个主机的一个IP地址访问。
        部分IP地址
        例子:Allow from 10.1
        IP地址的开始1到3个字节,用于子网限制。
        网络/掩码对
        例子:Allow from 10.1.0.0/255.255.0.0
        一个网络a.b.c.d,和一个掩码w.x.y.z。用于更精确的子网限制。
        网络/nnn 无内别域间路由规格
        例子:Allow from 10.1.0.0/16
        同前一种情况相似,除了掩码由nnn个高位字节构成。
        注意以上后三个例子完全匹配同一组主机。 IPv6地址和IPv6子网可以像下面这样指定: Allow from fe80::a00:20ff:fea7:ccea
        Allow from fe80::a00:20ff:fea7:ccea/10 Allow指令的第三种参数格式允许对服务器的访问由 环境变量的一个扩展指定。指定 Allow from env=env-variable时,如果环境变量env-variable存在则访问请求被允许。 使用由mod_setenvif提供的指令,服务器用一种基于客户端请求的弹性方式提供了设置环境变量的能力。 因此,这条指令可以用于允许基于像User-Agent(浏览器类型)、Referer或者其他Http请求头字段 的访问。 例子:
        SetEnvIf User-Agent ^KnockKnock/2.0 let_me_in
        <Directory /docroot>
        Order Deny,Allow
        Deny from all
        Allow from env=let_me_in
        </Directory> 这种情况下,发送以KnockKnock/2.0开头的用户代理标示的浏览器将被允许访问,而所有其他浏览器将被禁止访问。 Deny 指令
        说明: 控制哪些主机被禁止访问服务器
        语法: Deny from all|host|env=env-variable [host|env=env-variable] ...
        上下文: 目录, .htaccess
        覆盖项: Limit
        状态: Base
        模块: mod_access 这条指令允许基于主机名、IP地址或者环境变量限制对服务器的访问。 Deny指令的参数设置和Allow指令完全相同。 Order 指令
        说明: 控制缺省的访问状态和Allow与Deny指令被评估的顺序。
        语法: Order ordering
        默认值: Order Deny,Allow
        上下文: 目录, .htaccess
        覆盖项: Limit
        状态: Base
        模块: mod_access Order指令控制缺省的访问状态和 Allow与Deny指令被评估的顺序。 Ordering是以下几种范例之一: Deny,Allow
        Deny指令在 Allow指令之前被评估。缺省允许所有访问。 任何不匹配Deny指令或者匹配 Allow指令的客户都被允许访问服务器。
        Allow,Deny
        Allow指令在 Deny指令之前被评估。缺省禁止所有访问。 任何不匹配Allow指令或者匹配 Deny指令的客户都将被禁止访问服务器。
        Mutual-failure
        只有出现在Allow列表并且不出现在 Deny列表中的主机才被允许访问。 这种顺序与Order Allow,Deny具有同样效果,不赞成使用,它包括了哪一种配置。
        关键字只能用逗号分隔;它们之间不能有空格。注意在所有情况下每个Allow和Deny指令语句都将被评估。 在下面的例子中,apache.org域中所有主机都允许访问,而其他任何主机访问都被拒绝。 Order Deny,Allow
        Deny from all
        Allow from apache.org 下面例子中,apache.org域中所有主机,除了foo.apache.org子域包含的主机被拒绝访问以外,都允许访问。 而所有不在apache.org域中的主机都不允许访问,因为缺省状态是拒绝对服务器的访问。 Order Allow,Deny
        Allow from apache.org
        Deny from foo.apache.org 另一方面,如果上个例子中的Order指令改变为Deny,Allow, 将允许所有主机的访问。这是因为,不管配置文件中指令的实际顺序如何, Allow from apache.org指令会最后被评估到并覆盖之前的 Deny from foo.apache.org。所有不在apache.org 域中的主机也允许访问是因为缺省状态被改变到了允许。 <font face="宋体" size="3">即使没有伴随Allow和Deny指令,一个Order 指令的存在也会影响到服务器上某一个部分的访问, 这是由于他对缺省访问状态的影响。例如, <Directory /www>
        Order Allow,Deny
        </Directory> 这样将会禁止所有对/www目录的访问,因为缺省状态将被设置为拒绝. Order指令只在服务器配置的每个段内部控制访问指令的处理。 这暗示着,例如,一个在<Location>段出现的 Allow或者Deny指令总是将会在一个<Directory>段或者 .htaccess文件中出现的 Allow或Deny 指令之后被评估,而不管Order指令中的设置为何。要了解配置段落合并的详细信息, 参看How Directory, Location and Files sections work相关文档.</font>       


        « 最后编辑时间: 2009-12-03, 22:27 作者 sanion »
        路漫漫而修远兮,吾将上下而求索 [本人开发的免费网赚程序  http://www.shadowsnow.cn/GetForFree/index.asp]

        zhangmuge

        • Newbie
        • *
        • 来自:
        • 帖子: 19
        • 声望: +0/-0
        • 上次登录:2010-07-06, 13:49
        • 注册于:2010-02-21, 12:41
          • 电子邮件
        直接写邮件给soso,告诉他不要再采集你的网站。我写过,他们回复了,以后soso上就再也看不到我的站点了
        ------------------------------------------
        ☑80后 ☑奔3 ☑没房 ☑没车 ☑没钱 ☑没相貌 ☑没身材 ☑没才 ☑没经验 ☑没成绩 ☑没身份 ☑没背景 ☑没死 

        http://zhangmuge.blog.sohu.com
        ------------------------------------------