数据可视化
学习资料:https://github.com/datawhalechina/hands-on-data-analysis
一、图表代码编写
在Python中,matplotlib
是最常用的数据可视化库之一,结合pandas
可以方便地对数据进行处理和可视化。以下是一些常用图表的代码编写示例:
- 折线图:
1 | import matplotlib.pyplot as plt |
- 柱状图:
1 | import pandas as pd |
- 饼图:
1 | sizes = [215, 130, 245, 210] |
- 散点图:
1 | x = [1, 2, 3, 4, 5] |
二、图表选择与应用场景
- 折线图:适用于展示连续变量的变化趋势,如时间序列数据。通过折线的起伏可以直观地看出数据的变化规律。
- 柱状图:适用于比较不同类别之间的数量或大小差异。通过柱子的高低可以清晰地看出各个类别的对比情况。
- 饼图:适用于展示整体与部分之间的关系,即占比情况。通过扇形的大小可以直观地看出各个部分的占比情况。但类别过多时,饼图可能会显得过于拥挤。
- 散点图:适用于展示两个变量之间的关系,即相关性或分布趋势。通过点的分布可以初步判断两个变量之间是否存在某种关联或趋势。
三、可视化直观性提升技巧
- 选择合适的图表类型:根据数据的特性和分析目的选择合适的图表类型,是提升可视化直观性的关键。需要根据实际情况进行选择。
- 添加标题和标签:为图表添加标题、坐标轴标签和图例等辅助信息,可以更好地理解图表所表达的内容。能够准确地传达数据的含义。
- 调整颜色和大小:通过调整图表的颜色和大小等视觉元素,可以突出重要的数据点或类别。颜色和大小的调整应符合一定的规律和标准,避免造成视觉上的混乱和误解。
- 排序和分组:对于包含多个类别或变量的图表,可以通过排序和分组等方式对数据进行整理和展示,使图表更加清晰和易于理解。排序可以按照数量大小、时间顺序等方式进行;分组则可以将相似的类别或变量归并在一起,减少图表的复杂度和混乱度。
python的优势是对数据操作方便,可以快速的得到想要数据的统计图,如果追求图表的美观性直接处理好数据用origin画更有观赏性
小结:
数据可视化是数据分析过程中不可或缺的一环,通过选择合适的图表类型和编写相应的代码,可以将数据以直观、易懂的方式呈现出来。后续应该会补充missingno,seaborn等库的绘图。