如何使用 Pandas 进行数据分析?
步骤 1:导入库
import pandas as pd
步骤 2:读取数据
# 从 CSV 文件中读取数据
data = pd.read_csv("your_file.csv")
# 从 DataFrame 中读取数据
df = pd.DataFrame({"name": ["John", "Mary", "Bob"], "age": [25, 30, 35]})
步骤 3:数据预处理
- 删除重复数据
- 转换数据类型
- 标准化数据
步骤 4:数据分析
- 计算统计指标
- 探索数据分布
- 构建图表
步骤 5:数据可视化
- 使用 matplotlib、seaborn 等库绘制图表
示例代码
import pandas as pd
# 从 CSV 文件中读取数据
data = pd.read_csv("data.csv")
# 计算平均年龄
average_age = data["age"].mean()
# 统计描述符
print(data.describe())
# 绘制图表
data.plot(x="age", y="salary")
plt.show()
其他功能
- **数据过滤:**使用条件语句筛选数据
- **数据合并:**将两个或多个 DataFrame 合并
- **数据分组:**根据特定条件对数据进行分组
- **数据排序:**按照特定顺序排序数据
注意
- 确保数据文件存在。
- 可以使用 pandas 的其他方法来进行数据分析。