我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言

  • 时间:
  • 浏览:0

哈哈开玩笑的拉,人太好是样式中间有 icon-profile-female 和 icon-profile-male ^_^

   

我蛋疼的抓了它没有多用户,到底有那些用呢?

看过不少朋友圈里推荐的Python爬虫文章,都人太好太小儿科,正确处理内容没有 就是PHP的强项,Python唯一的好处估计也就天生的Linux自带, 和Perl一样,这点人太好挺不够意思的Linux,还是Mac厚道,天生就自带了Python、Perl、PHP、Ruby,当然我也很讨厌讨论一门语言 的好坏,每门语言处在就一定有它的道理,反正PHP是全世界最好用的语言,朋友都懂的^_^

5、朋友一般在那些时候上知乎?发问题图片、关注问题图片,那些问题图片值得关注

这里我真想说,PHP真的是全世界最好的语言,就还还有一个 函数,就彻底正确处理了问题图片,程序又欢快的跑起来了。

程序稳定运行到第十天,总爱没有新数据了,检查了一分派现知乎改规则了,不知是为了防我,还是碰巧,反正给我返回的数据是没有 的

来源:51CTO

下面是用户详情的截图,用户索引代码类式

当然还可不须要用curl自带的:

2、地域分布

最常见的当然是:

如果,你还可不须要看看那些大学出来的人,最后都干了那些。

使用两大独立循环程序组(用户索引程序组、用户详情程序组),用的是php的pcntl扩展,封装了还还有一个 非常好用的类,使用起来和golang的携程也差不要 了。

这里插个题外话,经过测试,我的8核的Macbook,跑16程序的传输强度最快,而16核的Linux服务器,青春恋爱物语是跑8程序最快,这点很糙帮我莫名其妙了,不过既然测试出最后程序数,就按照最好的设置就好啦。

4、每个职业的男女比例

看来知乎是强制要给我gzip压缩数据了,既然没有,没有 就解压呗,查了一下php解压gzip,发现就还还有一个 函数gzinflate,于是把获取到得内容打上去:

爬虫程序设计:

跟我说,你还可不须要把头像拿来分析,用开源的验黄程序,把色情的筛选出来,如果去拯救东莞? ^_^

第一感觉就是胡乱给我输出数据帮我分派只能,换了IP、模拟伪装了些数据,都没用,总爱感觉你这些蒸不烂 悉,会时候是gzip?抱着怀疑的态度,试了试gzip,首先当然是告诉知乎时候说给我gzip压缩过的数据

下面是利用那些数据做出来的你这些有趣的图表,实时图表数据可不须要去 http://www.epooll.com/zhihu/ 上看

2、用户详情程序组按照时间正序,拿到最先入库的用户抓取详情,如果把更新时间更新为当前时间,没有 就可不须要变成还还有一个 死循环,程序可不须要无休止的跑,不断的循环更新用户信息。

当然,按照关注人数、浏览人数、提问数、回答数等排序,看看人民是否关注那些,民生、社会、地理、政治,整个互联网都尽收眼底拉。。

curl_setopt( self::$ch, CURLOPT_ENCODING, 'gzip' );

人太好没那些用,我就是闲的蛋疼 ^_^

  前几天比较火的是俩买车人用C#写了还还有一个 程序爬虫程序,抓取了QQ空间100万QQ用户,其中有 100万用户是有QQ号、昵称、空间名称等信息的,也就 是说,有详情也就100万,跑了两周,这没那些,为了证明PHP是全世界最好的语言,人太好朋友都懂的^_^,我用PHP写了还还有一个 程序爬虫程序,只用了一 天时间,就抓了知乎100万用户,目前跑到第8圈(depth=8)互相有关联(关注了和关注者)的用户。

3、职业分布,来自那个公司

导致 知乎须要登录时候 获取到关注者页面,就是从chrome登录时候把cookie拷贝下来给curl程序模拟登录。

通过步骤一时候,朋友就得到下面的用户列表:

1、用户索引程序组先以还还有一个 用户为起点,抓取你这些用户的关注了和关注者,如果合并入库,导致 是多程序,就是当还还有一个 程序在正确处理同还还有一个 用户入库的时候就会出 现重复的用户,就是数据库用户名字段一定要建立唯一索引,当然也可不须要用redis那些第三方缓存来保证原子性,你这些就见仁见智了。

有了那些信息,人太好就可不须要做你这些别人开头闭口就乱吹一通的大数据分析拉

$content = substr($content, 10);

把 "Accept-Encoding: gzip,deflate\r\n"; 打上去,然并卵!

1、性别分布

$content = gzinflate($content));

有了那些数据,是否可不须要打开脑洞 ^_^

在匹配内容的时候,知乎的细心也是给了我无数的帮助,类式帮我分清用户性别: