如何使用 Pandas 进行数据清洗?
步骤 1:导入 pandas 库
import pandas as pd
步骤 2:读取数据
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")
# 读取 JSON 文件
data = pd.read_json("your_file.json")
步骤 3:数据预处理
- **数据转换:**使用
pd.to_numeric()
等方法将字符串类型的数据转换为数字类型。 - **数据清洗:**使用条件语句、循环或其他方法进行数据清洗,例如删除无效的记录或更改数据类型。
- **数据筛选:**使用条件语句筛选数据,例如根据特定条件过滤数据。
步骤 4:数据展示
# 打印数据
print(data)
# 创建数据可视化
data.plot()
示例
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("sales.csv")
# 转换字符串类型数据
data["product_name"] = data["product_name"].str.lower()
# 过滤数据
data_filtered = data[data["country"] == "USA"]
# 打印数据
print(data_filtered)
其他功能
- **数据合并:**使用
pandas.merge()
等方法合并数据。 - **数据分组:**使用
groupby()
方法对数据进行分组。 - **数据统计:**使用
describe()
等方法计算数据统计。 - **数据分析:**使用其他数据分析库进行数据分析。