天池 · 比赛入门与实践2

接上 天池 · 比赛入门与实践1 – 阿俯伏の编程日记

这篇继续课程的实践部分。

第一个学习的课程是一个数据分析入门赛事 -【Python入门系列】用Pandas揭秘美国选民的总统喜好。

官方直接提供了个基线版本我们,我们只需要fork基线,然后边运行编学习就行了,相当于手把手教入门。

先附上我的课题成果。
https://tianchi.aliyun.com/notebook-ai/detail?postId=798044

涵盖

  1. 数据集准备
    既然是分析美国选民的总统喜好,那先得有数据吧,官方就已经准备好了,直接下载。

  2. 数据处理
    相当于数据准备阶段,把数据加载合并。
    • 利用 pd.read_csv 加表头
    • 利用 pd.merge 合并表(联表)
    • 利用 pd.DataFrame 提取列
  3. 数据探索与清洗
    相当于调整数据,把数据整成规范的,程序可处理的。
    • 调用 shape 属性查看数据的规模 多少行 多少列
    • 调用 info 函数查看数据信息 包括每个字段的名称、非空数量、字段的数据类型
    • 调用 describe 函数查看数据分布
  4. 数据分析
    学习了简单的数据分析函数
    • groupby
    • sum
    • sort_values
    • value_counts
  5. 数据可视化
    利用 matplotlib.pyplot 类库画图(渲染),利用 wordcloud 制作词云。
    词云就是把一些词条以一定形式填充到一个区域里。
    • 柱状图
    • 饼图
    • 热力图
    • 折线图
    • 词云图

最后再给几个题目自己完成。

个人感悟

数据清洗原来是一个重要的环节,把数据整理成好的规范的格式,后面数据分析才能顺利。

新手级的数据分析、可视化是相对简单的,甚至困难程度比数据清洗还小。因为实操过程中,我发现 chatGPT 完全可以胜任,代码有准又快。

但同时,我也发现了,有些高玩,可以利用这些数据,结合更多的数学理论,去做胜率推算,这也许就是高玩吧。

这个课程,给我的感受,像是初次踏入阔野的孩童,眺望无边的夜空,满眼星辰。

附上高玩截图


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注