[Python 教程] Pandas 数据分析实战
Pandas 数据分析实战
Pandas 是 Python 数据分析的核心库,提供 DataFrame 和 Series 数据结构。本文介绍 Pandas 的实用技巧。
一、创建 DataFrame
import pandas as pd
import numpy as np
# 从字典创建
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['NYC', 'LA', 'Chicago']
})
# 从 CSV 读取
# df = pd.read_csv('data.csv')
# 从 Excel 读取
# df = pd.read_excel('data.xlsx')
二、数据查看
df.head() # 前 5 行
df.tail() # 后 5 行
df.info() # 数据信息
df.describe() # 统计描述
df.shape # (行数,列数)
df.columns # 列名
三、数据选择
# 选择列
df['name']
df[['name', 'age']]
# 选择行
df.loc[0] # 标签索引
df.iloc[0] # 位置索引
df.loc[0:2] # 行范围
# 条件筛选
df[df['age'] > 30]
df[(df['age'] > 25) & (df['city'] == 'NYC')]
四、数据处理
# 添加列
df['salary'] = [50000, 60000, 70000]
# 删除列
df.drop('city', axis=1, inplace=True)
# 重命名
df.rename(columns={'name': 'full_name'}, inplace=True)
# 排序
df.sort_values('age', ascending=False)
# 去重
df.drop_duplicates()
五、数据统计
df['age'].mean() # 平均值
df['age'].median() # 中位数
df['age'].std() # 标准差
df['age'].value_counts() # 值计数
df.groupby('city')['age'].mean() # 分组统计
六、处理缺失值
# 检查缺失值
df.isnull().sum()
# 删除缺失值
df.dropna()
# 填充缺失值
df.fillna(0)
df['age'].fillna(df['age'].mean())
