Datawhale动手数据分析第二章第四节

阅读数: 次 2024-03-18

数据可视化

学习资料：https://github.com/datawhalechina/hands-on-data-analysis

一、图表代码编写

在Python中，matplotlib是最常用的数据可视化库之一，结合pandas可以方便地对数据进行处理和可视化。以下是一些常用图表的代码编写示例：

折线图：

import matplotlib.pyplot as plt
data = [1, 2, 3, 4, 5]
plt.plot(data)
plt.show()

柱状图：

import pandas as pd
data = {'Category': ['A', 'B', 'C'], 'Value': [10, 15, 7]}
df = pd.DataFrame(data)
df.plot(kind='bar', x='Category', y='Value')
plt.show()

饼图：

sizes = [215, 130, 245, 210]
labels = ['Frogs', 'Hogs', 'Dogs', 'Logs']
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.show()

散点图：

x = [1, 2, 3, 4, 5]
y = [2, 3, 1, 5, 6]
plt.scatter(x, y)
plt.show()

二、图表选择与应用场景

折线图：适用于展示连续变量的变化趋势，如时间序列数据。通过折线的起伏可以直观地看出数据的变化规律。
柱状图：适用于比较不同类别之间的数量或大小差异。通过柱子的高低可以清晰地看出各个类别的对比情况。
饼图：适用于展示整体与部分之间的关系，即占比情况。通过扇形的大小可以直观地看出各个部分的占比情况。但类别过多时，饼图可能会显得过于拥挤。
散点图：适用于展示两个变量之间的关系，即相关性或分布趋势。通过点的分布可以初步判断两个变量之间是否存在某种关联或趋势。

三、可视化直观性提升技巧

选择合适的图表类型：根据数据的特性和分析目的选择合适的图表类型，是提升可视化直观性的关键。需要根据实际情况进行选择。
添加标题和标签：为图表添加标题、坐标轴标签和图例等辅助信息，可以更好地理解图表所表达的内容。能够准确地传达数据的含义。
调整颜色和大小：通过调整图表的颜色和大小等视觉元素，可以突出重要的数据点或类别。颜色和大小的调整应符合一定的规律和标准，避免造成视觉上的混乱和误解。
排序和分组：对于包含多个类别或变量的图表，可以通过排序和分组等方式对数据进行整理和展示，使图表更加清晰和易于理解。排序可以按照数量大小、时间顺序等方式进行；分组则可以将相似的类别或变量归并在一起，减少图表的复杂度和混乱度。

python的优势是对数据操作方便，可以快速的得到想要数据的统计图，如果追求图表的美观性直接处理好数据用origin画更有观赏性

小结：

数据可视化是数据分析过程中不可或缺的一环，通过选择合适的图表类型和编写相应的代码，可以将数据以直观、易懂的方式呈现出来。后续应该会补充missingno，seaborn等库的绘图。