如何使用 Python 和 Pandas 进行数据清洗?

如何使用 Python 和 Pandas 进行数据清洗?

数据清洗步骤:

  1. 导入库
  2. 读取数据
  3. 数据预处理
  4. 数据清洗
  5. 保存结果

代码示例:

import pandas as pd

# 导入库
data = pd.read_csv("data.csv")

# 读取数据
print(data.head())

# 数据预处理
data["age"] = data["age"].fillna(25)
data["salary"] = data["salary"].fillna(10000)

# 数据清洗
data.dropna(inplace=True)

# 保存结果
data.to_csv("cleaned_data.csv", index=False)

其他方法:

  • **筛选数据:**使用 lociloc索引选择数据。
  • **分组数据:**使用 groupby 函数对数据进行分组。
  • **创建新的变量:**使用 assign 方法创建新的变量。
  • **使用函数进行数据清洗:**例如,可以使用 strint 函数进行字符串和数字转换。

注意:

  • 数据清洗是一个逐步的过程,需要根据具体的数据情况进行调整。
  • 使用 pandas 库进行数据清洗需要安装 pandas 库。
  • 可以使用 to_sql 方法将 cleaned 数据写入数据库。
相似内容
更多>