当前位置:首页 > Python > 正文内容

[Python 教程] Pandas 数据分析实战

admin3小时前Python2

Pandas 数据分析实战

Pandas 是 Python 数据分析的核心库,提供 DataFrame 和 Series 数据结构。本文介绍 Pandas 的实用技巧。

一、创建 DataFrame

import pandas as pd
import numpy as np

# 从字典创建
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'Chicago']
})

# 从 CSV 读取
# df = pd.read_csv('data.csv')

# 从 Excel 读取
# df = pd.read_excel('data.xlsx')

二、数据查看

df.head()      # 前 5 行
df.tail()      # 后 5 行
df.info()      # 数据信息
df.describe()  # 统计描述
df.shape       # (行数,列数)
df.columns     # 列名

三、数据选择

# 选择列
df['name']
df[['name', 'age']]

# 选择行
df.loc[0]       # 标签索引
df.iloc[0]      # 位置索引
df.loc[0:2]     # 行范围

# 条件筛选
df[df['age'] > 30]
df[(df['age'] > 25) & (df['city'] == 'NYC')]

四、数据处理

# 添加列
df['salary'] = [50000, 60000, 70000]

# 删除列
df.drop('city', axis=1, inplace=True)

# 重命名
df.rename(columns={'name': 'full_name'}, inplace=True)

# 排序
df.sort_values('age', ascending=False)

# 去重
df.drop_duplicates()

五、数据统计

df['age'].mean()    # 平均值
df['age'].median()  # 中位数
df['age'].std()     # 标准差
df['age'].value_counts()  # 值计数
df.groupby('city')['age'].mean()  # 分组统计

六、处理缺失值

# 检查缺失值
df.isnull().sum()

# 删除缺失值
df.dropna()

# 填充缺失值
df.fillna(0)
df['age'].fillna(df['age'].mean())

相关文章

[Python 教程] OpenCV 实战:图像与视频文件处理

OpenCV 实战:图像与视频文件处理本文详细介绍如何使用 OpenCV 处理图像和视频文件,包括读取、显示、保存等操作。一、图像文件操作1.1 读取图像import cv2 #&nb...

[Python 教程] OpenCV 绘图教程:图形与文本标注

OpenCV 绘图教程:图形与文本标注本文介绍如何在 OpenCV 中绘制各种图形和添加文本,用于图像标注和可视化。一、绘制基本图形1.1 创建画布import cv2 import&nb...

[Python 教程] NumPy 数组操作详解

NumPy 数组操作详解 NumPy 是 Python 科学计算的基础库,提供高性能的多维数组对象。本文详细介绍 NumPy 数组的核心操作。 一、创建数组 import numpy as np...

[Python 教程] Matplotlib 数据可视化教程

Matplotlib 数据可视化教程 Matplotlib 是 Python 最常用的绘图库。本文介绍常用图表的绘制方法。 一、基础设置 import matplotlib.pyplot as pl...

[Python 教程] Python 多线程编程指南

Python 多线程编程指南 Python 的 threading 模块提供多线程支持。本文介绍多线程编程的基础和实用技巧。 一、创建线程 import threading import time...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。