回到当初我学python的动力,很大原因是因为爬虫,当时同龄的技术爱好者和我说,python多么多么牛逼,多么多么Geek,我不为所动,直到我修了信息检索这门课
顾名思义,这门课的目标是弄懂现在搜索引擎的原理,当然包括了爬虫,以项目作为期末成绩参照,自然就是写一个爬虫
毫无疑问我接触了python,自此我开启了一个疯狂探索python的阶段
回到主题,爬虫的意义在哪里?
我认为,目前互联网平台其实是十分集中化的,知乎、豆瓣等社交平台集中大部分web2.0的用户原创内容,(以前是微博)
当然还有朋友圈,其它网站能获取到宝贵的用户原创内容,其实真的非常非常难,这也就是所谓渠道的问题。
我们在这里不聊那些运营,我们只想知道,如何把这些宝贵的用户信息收集起来,能够得到进一步的利用。要做到这一步,爬虫技术是重中之重。
举个简单的例子,steam是当今单机游戏爱好者聚集的最大平台,我也不例外,非常喜欢在上面写评测,看别人的review,这个平台构建的十分完美,各种信息,但是steam并没有将这些信息做一个系统化的呈现,但有其他人利用他们提供的api进行爬取,能够获得各种游戏时长数据对比、在steam消费总额统计等有用的信息。
这是一个非常简单的利用已有平台的信息变现。
同理我们可以看看这个项目,也是利用了豆瓣这个平台,对其中的图片进行爬取,进行一个变现。
所以我终于大概知道很多人为什么热衷于爬虫了,这是一个最容易拿到信息并用于日常生活的途径,做个小型爬虫并不难,但却能给生活中创造意想不到的巨大价值。