可爱的爬虫(一)

一入爬门深似海。

1 爬虫也可爱

爬虫在今天是一个不太受人待见的东西,很少有人会说,“看,我的网站被爬了,真爽”。对于以数据为支撑来提供服务的网站,就更不稀罕爬虫了,恨不得天下的爬虫死光光。

这就给开发网站的程序员朋友们出了个难题,领导一拍桌子,要求网站的内容对用户可见,对爬虫不可见。这还不算完,为了引流,我们除了要买一个响亮的域名,比如“zhangxiaoyang.me”,还要考虑到搜索引擎,让自己的网站尽可能排到搜索结果的前面。

好吧,现在问题变成了网站的内容对用户和搜索引擎可见,对爬虫不可见。这就像处理前女友和现女友的关系,现女友说“你们不要再联系了”,前女友说“我们还可以做朋友,不是吗”。咋整?

其实我们不必画地为牢,网站像对待用户一样对待正常的爬虫,而爬虫也尽可能像正常用户一样去访问网站。大家不极端,互相温柔,彼此可爱,多好。

2 爬虫时代

在互联网之前,数据可以被锁在保险柜。而在今天,我们把数据变活,建立了无数的以数据为基础的服务平台。数据变成了渠道,用户扑了进来。

没有谁拥有所有的数据。没数据的想拥有数据,有数据的想拥有更全更准确的数据。如今,我们求数据若渴。而爬虫便成了这替罪羔羊,我们使用爬虫去目标网站采摘心仪的数据果实,把他们从互联网接入到本地,处理、分析、再加工,打造了更具有特色和用户体验的产品,其中最耀眼的便是搜索引擎了。

爬虫背负了骂名,让产品的第一个环节更加坚实,让用户体验更加具体,让生活更美好。这是一个大数据时代,更是一个爬虫时代。因为爬虫,才使得共享深入人心;因为爬虫,才有这百花齐放。

3 遁入爬门

没有谁不需要爬虫,如果你不需要,那强烈推荐你试一试,一如爬门深似海。爬门里遍地奇技淫巧,从wget到curl,从Chrome到Fiddler,从PC端到移动端,从Cookie到JavaScript,从逆向到Node,从线程到协程,从Python到Go,从单机到分布式,从HTTP到TCP,从规则匹配到机器学习......通过爬虫来瞭望计算机的浩瀚海洋犹如管中窥豹,但依然令人热血沸腾。

参考