近日,百度以奇虎360侵犯百度权益为由,对奇虎360发起诉讼。其中一个争论焦点,是百度百度指责奇虎360违法robots协议协议,指奇虎360漠视robots协议抓取百度搜索索引,并把百度知道、百度贴吧等内容做成网页快照,供奇虎360搜索的用户所用。这样的指责看似比较有道理,实际上却有一些不为人知的秘密。这秘密就在于允许和不允许,黑名单与白名单这是个关键词上。
“黑名单不允许,白名单允许”,也许很多人都持这样的看法。但在robots协议中,允许和白名单、不允许和黑名单之间并非这样简单的对应关系。Robots协议是一个.TXT文件,是网站内容为了更有效率的被搜索引擎索引,给爬虫做出提示,只用允许和不允许两种语句表示建议抓哪些内容,不建议抓哪些内容。所有这些提示性建议都是善意的,这种善意的提示一般会被爬虫接受。
也就是说,这些允许和不允许所针对的就是内容本身。比如说这个内容适合传播,那允许抓取;另外一条内容属于个人隐私,建议不要抓取。如果各个企业都能遵从Robots协议,那就为建立一个良好的互联网信息流通环境打好了基础。
而百度的白名单和黑名单制度却并非针对内容而设置,而是针对厂商所设置,比如其他厂商来抓取内容。如果属于白名单列表内,就一律放行、不予追究。而一旦奇虎360搜索来抓取内容,即便符合Robots协议中的允许范畴,也会因为其位于百度黑名单中而拒绝抓取或者追究责任。所谓允许和不允许,白名单和黑名单的区别就在于此。
Robots协议的初衷是让信息传播更流畅,更容易保护个人隐私,国外知名网站绝大部分都是以允许和不允许来使用Robots协议,如eBay就采用允许和不允许,而苹果则只采用允许。
而实际上百度的做法表面上遵从Robots协议,现实中却完全违背了Robots协议的初衷。这种行为,把Robots协议搞成了一个用来做不正当竞争的工具,用于打击其最大的竞争对手奇虎360。不仅如此,其还对奇虎360反咬一口,指责对方不遵守Robots协议协议。百度与奇虎360之间的纠纷,更多的不是互联网协议遵从与否的纠纷,而利益纠葛。百度作为国内互联网搜索的领军企业,自然不允许其市场份额有衰退迹象,从这一点讲,打击奇虎360是百度必出之招,而对方是不是奇虎360并不重要,重要的是谁威胁到百度的地位。