知乎用户统计
昨天爬取了知乎大v “朱炫” 的关注者的用户基本信息。
如图所示,朱炫总共有 676697 位关注者,半小时爬取了 117913 条用户的基本信息。用户信息里每个用户只有 18 个字段的信息,都是一些很基本的信息,如图
通过 requests 爬取,存进 mongodb 里。下面是一些基本分析:
性别
12万的用户里,男性有 25819 位,女性有 31095 位,还有 60999 位没有设置性别信息。
回答
其中有 63109 位用户从没有回答过问题,32376 位用户回答过 5 个以内的问题,而回答数量超过 50 的只有 2536 位用户。
关注者
有 60749 名用户是没有被任何人关注的,47116 名用户有10个以下的关注者,只有 3349 位用户有50个以上的关注者。
机构号
在 12w 的关注者里有 29 个机构用号关注了大师兄,只选取了关注者最多的 10 个机构号来显示。
关注者
查取了10位关注者最多的用户。
有趣
用的最多的用户名
你们猜用的最多的用户名是什么?
好像没有一个真名==
用的最多的个人简介是这些:
看来知乎是学生党的天下。。
总结
爬虫使用 requests
;
数据库是 MongoDB
;
绘图用了 matplotlib.pyplot
和 pylab
MongoDB 作为非关系型数据库的代表,不用 sql 语句,使用起来确实是方便了一些。
绘图刚学,柱状图的标签还都没有居中==
python
是世界上最好用的语言
python
是世界上最好用的语言
python
是世界上最好用的语言