Blog on 27th Floor
主页 随便 电脑 电影 社会 阅读 下载 本站 存档
主页 随便 电脑 电影 社会 阅读 下载 本站 存档

搜索引擎们是不是应该考虑下流量问题?

02/14/06。  cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。


昨晚看本站的Cpanel(虚拟主机管理),本月流量居然超过了10G,我每月流量是15G,现在才过了一半,真是吓我一跳。因为以前整个月一般只有6-7GB,上次Virushuo说这事的时候我还不以为然。

Cpanel里的Analog统计如下:

#reqs   %bytes  organization
2818691 24.36% 61.135
1954294 11.50% 202.160
759987 7.48% 220.181

看了下原始Log文件,61.135开头的是BaiduSpider+,大体有两个IP(61.135.145.204, 202.108.250.196),后一个IP也吃掉了2.2%的流量。202.160开头的是Yahoo,Yahoo看来有很多IP,不过这个段对这里最厉害,大体是202.160.180.132/37/70/63等等,此外还有72.33.177., 68.142.249/250., 66.196.90/91.等等。220.181是新兴起的,叫sogou spider,以前是不是叫sohu agent?准确IP只观察到一个:220.181.19.95。

听说写robots.txt应该起作用,但又听说也许得2-4周的时候才发生效用,人家有技术难题,也没有办法。幸好Cpanel也提供一个IP Deny的功能,希望它发生效用吧,我已经把上述IP全部加入了,理论上应该能节约43.34%的流量。

求助一下,这3家的agent似乎是这样,robots.txt该怎么写呢?尤其是Yahoo!那个,总不能把Mozilla写上吧,似乎是写Slurp?。

“Baiduspider+(+http://www.baidu.com/search/spider.htm)”

“Mozilla/5.0 (compatible; Yahoo! Slurp China;http://misc.yahoo.com.cn/help.html)”

“Mozilla/5.0 (compatible; Yahoo! Slurp;http://help.yahoo.com/help/us/ysearch/slurp)”

“sogou spider”

02/14/06 10:32:33,由cathayan发表。目录:电脑

14条评论

请教一下, 我放了robots.txt禁止一切搜索引擎, 用的是以*代替的最普通的语句, 现在发现根本不管用. 可以帮忙给出一个有效的robots的具体内容么?

cheeky 于 02/14/06 11:04:12 发表. 

这robots.txt就是个君子锁,画地为牢的那么个意思,听不听全看搜索引擎,没办法的事。所以最终解决还得靠封IP。可这些家伙都有一堆IP,封IP也够累的,虚拟主机还不一定提供这个功能。

所以,还是请大牛们、百万富翁们改造一下那些虫子蜘蛛,搜就搜了,别太狠啊,再说狠也没用啊。

http://blog.cathayan.org/member/1 cathayan 于 02/14/06 11:14:23 发表. 

估计你的流量又要上升一截了。
你的blog链接在Google中国的blog右栏名列第五。

http://qiuyingtao.blogchina.com qyt 于 02/14/06 12:14:54 发表. 

可以看一下你的网站后台的流量统计吗? 我的位于:

http://www.chedong.com/cgi-...

浏览器流量 : 非浏览器流量 大约是 3:2的样子

谢谢

http://www.chedong.com/blog/ 车东 于 02/14/06 12:22:37 发表. 

我那个是Cpanel内置的功能,外面看不了。你那个也不行。

我那里引擎流量应该不接近50%,其他还有好几家,比例都比较小。

http://blog.cathayan.org/member/1 cathayan 于 02/14/06 12:42:49 发表. 

搜索引擎竞争太激烈了
后果就是大家拼命扒
拼量 拼更新速度

然后同学们就惨了
cft

http://windtear.net/ windtear 于 02/14/06 15:51:18 发表. 

不能竭泽而渔嘛

现在Log里全是Baiduspider+的403错误了 :P

http://blog.cathayan.org/member/1 cathayan 于 02/14/06 16:16:54 发表. 

有意思,有意思。Baidu对我的MSN Space也有骚扰。

http://spaces.msn.com/members/richardfang/ wanderor 于 02/14/06 17:12:08 发表. 

封IP来阻止搜索引擎不是很好,最好用.htaccess的办法,在.htaccess中加入下面的代码:(下面第二个十阻止yahoo)

RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} ^sogou spider [OR]
RewriteRule ^.* - [F]

http://www.livedigg.com/ digg china 于 02/14/06 17:45:22 发表. 

Yahoo 那个不管用 robot 还是 .htaccess 千万不能用 Mozilla/5.0 来作为 USer Agent, firefox 浏览器也是用的这个开头。 Slurp 即是Yahoo 搜索的正式代号。

http://www.livedigg.com/ digg china 于 02/14/06 17:49:36 发表. 

前一阵子因为服务器压力太大用.htaccess屏蔽过一些
order allow,deny
deny from 222.181.89.109
deny from 61.135.145.219
deny from xd-22-85-a8.bta.net.cn
deny from agava.net
deny from 222.181.86.168
deny from tpiol.tpiol.com
deny from xd-23-81-a8.bta.net.cn
allow from all
看来封了个baidu的ip,帮我看看其它的那些都是什么来历?
它们也太狠了,每天爬数千次

http://yanfeng.org/blog 桑葚 于 02/15/06 05:09:51 发表. 

Googlebot 43145+41 304.17 M字节 2006年 二月 16日 21:44
BaiDuSpider 34386+14 1.25 G字节 2006年 二月 16日 22:18
Yahoo Slurp 25040+1450 263.37 M字节 2006年 二月 16日 22:20
Unknown robot (identified by 'spider') 11818+2 234.42 M字节 2006年 二月 16日 22:17
larbin 11493+257 211.97 M字节 2006年 二月 16日 20:01
Google AdSense 8692+16 111.52 M字节 2006年 二月 16日 22:15
MSNBot 6806+235 226.19 M字节 2006年 二月 16日 22:19

这是我的blog的2月份数据,yahoo比以前有了很大的改善,但baidu实在是太垃圾了,完全不是一个数量级的。。。。

http://www.shunz.net/ shunz 于 02/16/06 22:34:08 发表. 

还有个Slurp China,这个比Slurp狠一倍。

http://blog.cathayan.org/member/1 cathayan 于 02/16/06 22:44:00 发表. 

通过.htaccess方式禁止搜索引擎以及其他的非浏览器流量比较好。
我正在查每个搜索引擎的agent

http://www.83blog.com 大漠孤狼 于 08/24/07 18:09:48 发表. 


这篇文章已经关闭,不能添加评论和投票
I am watching and will delete all spam.

我的E-Mail


Copy&Paste Exchange

访问CPeX Group

订阅Feed

订阅Feedburner
Feedsky订阅
本站订阅

请登录

导航

cathayan.org Web

最新贴

RIME 小狼毫/鼠须管的极点及五笔拼音配置
Software that rocks or sucks less
一棵热带的树换新叶的过程
几个有用的Vim招术
论语七 述而
Nomacs 图像浏览器
Windows 文件校验
Windows 10 文件批量命名简单方法
Windows 10 文件删除高级操作
本站也算是有响应式设计了

最新评论

Powered by

Powered by Nucleus CMS

版权声明

Creative Commons License
Blog on 27th floor by Cathayan is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported License.
Powered by Nucleus CMS v3.71. Best view with Mozilla browsers.