博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python数据分析之小鲜肉粉丝情况
阅读量:6177 次
发布时间:2019-06-21

本文共 711 字,大约阅读时间需要 2 分钟。

前段时间在有讲上分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。

数据预处理

  • 首先,我们读入数据:
import pandas as pdimport pymysqlconn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')weibo = pd.read_sql('select * from weibo',conn)weibo
img_5d2dce55b7bbafb6ef3972cfd9b423a8.jpe
  • 由于爬虫中断过,出现了一些重复数据,我们要去重掉。
weibo = weibo.drop_duplicates()weibo
img_c7a0cca88397e6202711b0c3c3d39999.jpe
  • 索引没有发生变化,我们重新索引:
weibo = weibo.reset_index(drop=True)weibo
img_90b4ce5fd27dd8883e4b5daec9b459b4.jpe
  • 我们首先对地址和时间做下处理(时间数据没用到),让地址只到省份,时间只为年份:
city = weibo.address.str.split().str[0]year = weibo.time.str.split('-').str[0]weibo['city'] = cityweibo['year'] = yearweibo
img_ac76bccc4d53d2c12c7922fd27cfe217.jpe

这样我们就完成了简单的数据处理啦。

数据分析

  • 看看男女比例情况

    img_9cb7ae2a6cf540cc8a51624363aaa852.png

    妹子还是多一点,但汉子也是蛮多的,看来许多汉子也是有一颗少女心得(我只是路人,黑粉请不要喷我)。

  • 城市分布情况

    img_c2e220aa8ccf30f818ab49f50b43b024.png

    广东的粉丝是最多的,由于只是数据量不多,也不能说明太多问题,大家看看就好。

转载地址:http://glzda.baihongyu.com/

你可能感兴趣的文章
理论 | 朴素贝叶斯模型算法研究与实例分析
查看>>
docker安装gitlab只需要3分钟
查看>>
Android菜鸟学习js笔记 一
查看>>
Java基础之SPI机制
查看>>
使用js控制滚动条的位置
查看>>
【Tornado源码阅读笔记】tornado.web.Application
查看>>
lsyncd搭建测试
查看>>
移动web开发之像素和DPR
查看>>
nginx+tomcat+redis实现session共享
查看>>
UWP VirtualizedVariableSizedGridView 支持可虚拟化可变大小Item的View(二)
查看>>
rsync 介绍
查看>>
做一个合格的Team Leader -- 基本概念
查看>>
leetcode 190 Reverse Bits
查看>>
阿里巴巴发布AliOS品牌 重投汽车及IoT领域
查看>>
OPENCV图像处理(二):模糊
查看>>
glassfish4系统启动脚本
查看>>
VMware 虚拟化编程(13) — VMware 虚拟机的备份方案设计
查看>>
独家 | 一文读懂推荐系统知识体系-下(评估、实战、学习资料)
查看>>
UIEvent UIResponder UI_04
查看>>
从非GP到GP
查看>>