如何使用 Pandas 库进行数据清洗?
步骤 1:导入库
import pandas as pd
步骤 2:读取数据
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")
# 读取 JSON 文件
data = pd.read_json("your_file.json")
步骤 3:数据预处理
- **数据转换:**使用
pd.to_numeric()
等方法将字符串类型的数据转换为数字类型。 - **数据清洗:**使用条件语句或其他方法进行数据清洗,例如删除无效的记录或更改数据类型。
- **数据分组:**使用
groupby()
方法对数据进行分组,并进行数据处理。
步骤 4:数据展示
# 打印数据
print(data)
# 创建数据可视化
data.plot()
示例
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("sales_data.csv")
# 转换字符串类型数据
data["product_name"] = data["product_name"].str.lower()
# 删除无效的记录
data.dropna(inplace=True, subset="sales")
# 打印数据
print(data)
其他功能
- **数据过滤:**使用条件语句过滤数据。
- **数据合并:**使用
merge()
方法合并数据。 - **数据转换:**使用
to_datetime()
等方法将日期类型的数据转换为 datetime 类型。 - **数据加密:**使用
encrypt()
方法对数据进行加密。