如何使用 Python 和 Pandas 进行数据清洗?
数据清洗步骤:
- 导入库
- 读取数据
- 数据预处理
- 数据清洗
- 保存结果
代码示例:
import pandas as pd
# 导入库
data = pd.read_csv("data.csv")
# 读取数据
print(data.head())
# 数据预处理
data["age"] = data["age"].fillna(25)
data["salary"] = data["salary"].fillna(10000)
# 数据清洗
data.dropna(inplace=True)
# 保存结果
data.to_csv("cleaned_data.csv", index=False)
其他方法:
- **筛选数据:**使用
loc
和iloc
索引选择数据。 - **分组数据:**使用
groupby
函数对数据进行分组。 - **创建新的变量:**使用
assign
方法创建新的变量。 - **使用函数进行数据清洗:**例如,可以使用
str
和int
函数进行字符串和数字转换。
注意:
- 数据清洗是一个逐步的过程,需要根据具体的数据情况进行调整。
- 使用
pandas
库进行数据清洗需要安装pandas
库。 - 可以使用
to_sql
方法将 cleaned 数据写入数据库。