知乎用户基本分析

知乎用户统计

昨天爬取了知乎大v “朱炫” 的关注者的用户基本信息。

image

如图所示,朱炫总共有 676697 位关注者,半小时爬取了 117913 条用户的基本信息。用户信息里每个用户只有 18 个字段的信息,都是一些很基本的信息,如图
image

通过 requests 爬取,存进 mongodb 里。下面是一些基本分析:

性别

image

12万的用户里,男性有 25819 位,女性有 31095 位,还有 60999 位没有设置性别信息。

回答

image

其中有 63109 位用户从没有回答过问题,32376 位用户回答过 5 个以内的问题,而回答数量超过 50 的只有 2536 位用户。

关注者

image

有 60749 名用户是没有被任何人关注的,47116 名用户有10个以下的关注者,只有 3349 位用户有50个以上的关注者。

机构号

在 12w 的关注者里有 29 个机构用号关注了大师兄,只选取了关注者最多的 10 个机构号来显示。

image

关注者

查取了10位关注者最多的用户。
image

有趣

用的最多的用户名

你们猜用的最多的用户名是什么?
image

好像没有一个真名==

用的最多的个人简介是这些:
image

看来知乎是学生党的天下。。

总结

爬虫使用 requests

数据库是 MongoDB

绘图用了 matplotlib.pyplotpylab

MongoDB 作为非关系型数据库的代表,不用 sql 语句,使用起来确实是方便了一些。

绘图刚学,柱状图的标签还都没有居中==

python 是世界上最好用的语言

python 是世界上最好用的语言

python 是世界上最好用的语言

# Python

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×

keyboard_arrow_up 回到顶端