Google开始用人脑了
cathayan.org版权所有,保留一切权利。转载请保留此说明。谢绝商业转载。
Google的搜索技术独步全球,是靠电脑做出来的,据说是上万台机器,因此它的第二大支出是电费(第一大是带宽)。当然不是说Google就不用人脑,它用得狠着呢,招工程师都要解点什么题目,让电脑干活的程序还是要人来写么。现在Google看来要发动全球网民的人脑直接来干活了。
一个是Google被曝光说有个秘密实验室,在全球雇佣大学生来为他做搜索结果的人工排名,也就是让这些人看到某些关键词搜到的结果,如果有不合适的就手工调整一下,以此达到最终用户的最满意的搜索。
另一个是Sitemap,这个更加手工。以前Google可以看到全世界的公开网页,全是自动的网络爬虫一个个网址搜出来的,这样搜出来的结果自然依赖于爬虫的能力。网站地址千变万化,现在又多数存在数据库里,服务器硬盘上并无这个网页文件存在。现在Google推出的这个项目,就是让站长们画出自己的网站地图,用XML文件提交给它(当然也可以提交给Yahoo),这样这个爬虫工作时就可以按图索骥,效率高,准确度也高,查全率也会高。Google还提供了Python程序也自动生成这个Sitemap,可惜一般虚拟主机上并无这个语言支持。
看来至少目前为止,电脑还是听人话干活的死脑筋,由人类创造出来并体现着人类文明的互联网对电脑来说仍然过于复杂,必须继续由人来干预。其实,想想现在电脑还下不好围棋,没办法对一篇文章进行理解,甚至中文的自动分词技术仍然一塌糊涂,这些也很自然。
一个是Google被曝光说有个秘密实验室,在全球雇佣大学生来为他做搜索结果的人工排名,也就是让这些人看到某些关键词搜到的结果,如果有不合适的就手工调整一下,以此达到最终用户的最满意的搜索。
另一个是Sitemap,这个更加手工。以前Google可以看到全世界的公开网页,全是自动的网络爬虫一个个网址搜出来的,这样搜出来的结果自然依赖于爬虫的能力。网站地址千变万化,现在又多数存在数据库里,服务器硬盘上并无这个网页文件存在。现在Google推出的这个项目,就是让站长们画出自己的网站地图,用XML文件提交给它(当然也可以提交给Yahoo),这样这个爬虫工作时就可以按图索骥,效率高,准确度也高,查全率也会高。Google还提供了Python程序也自动生成这个Sitemap,可惜一般虚拟主机上并无这个语言支持。
看来至少目前为止,电脑还是听人话干活的死脑筋,由人类创造出来并体现着人类文明的互联网对电脑来说仍然过于复杂,必须继续由人来干预。其实,想想现在电脑还下不好围棋,没办法对一篇文章进行理解,甚至中文的自动分词技术仍然一塌糊涂,这些也很自然。
评论
errorter:
Jesse:
Google sitemaps 用 RSS或XML 也可以。
Google sitemaps 试用:
http://jesse.blogs-china.co...
于 2005-06-04 20:11:50 发表,来自:http://jesse.blogs-china.com/
tsingove:
Wordpress已经有了写了一个文件,可以实现了。
于 2005-06-04 23:44:05 发表,来自:http://www.qiantu.org
我来评论
为保护您的隐私,请不要在评论框里填写自己的真实E-mail地址。
广告见之即删。带有任何赢利机构链接的评论都会删除。
广告见之即删。带有任何赢利机构链接的评论都会删除。

哈 这个文章标题好,例子举的更好!

一塌糊涂