这篇继续课程的实践部分。
第一个学习的课程是一个数据分析入门赛事 -【Python入门系列】用Pandas揭秘美国选民的总统喜好。
官方直接提供了个基线版本我们,我们只需要fork基线,然后边运行编学习就行了,相当于手把手教入门。
先附上我的课题成果。
https://tianchi.aliyun.com/notebook-ai/detail?postId=798044
涵盖
- 数据集准备
既然是分析美国选民的总统喜好,那先得有数据吧,官方就已经准备好了,直接下载。 - 数据处理
相当于数据准备阶段,把数据加载合并。- 利用 pd.read_csv 加表头
- 利用 pd.merge 合并表(联表)
- 利用 pd.DataFrame 提取列
- 数据探索与清洗
相当于调整数据,把数据整成规范的,程序可处理的。- 调用
shape
属性查看数据的规模 多少行 多少列 - 调用
info
函数查看数据信息 包括每个字段的名称、非空数量、字段的数据类型 - 调用
describe
函数查看数据分布
- 调用
- 数据分析
学习了简单的数据分析函数- groupby
- sum
- sort_values
- value_counts
- 数据可视化
利用 matplotlib.pyplot 类库画图(渲染),利用 wordcloud 制作词云。
词云就是把一些词条以一定形式填充到一个区域里。- 柱状图
- 饼图
- 热力图
- 折线图
- 词云图
最后再给几个题目自己完成。
个人感悟
数据清洗原来是一个重要的环节,把数据整理成好的规范的格式,后面数据分析才能顺利。
新手级的数据分析、可视化是相对简单的,甚至困难程度比数据清洗还小。因为实操过程中,我发现 chatGPT 完全可以胜任,代码有准又快。
但同时,我也发现了,有些高玩,可以利用这些数据,结合更多的数学理论,去做胜率推算,这也许就是高玩吧。
这个课程,给我的感受,像是初次踏入阔野的孩童,眺望无边的夜空,满眼星辰。
附上高玩截图
发表回复