pandas：功能强大的Python数据分析工具包¶

Date: Aug 05, 2018 Version: 0.23.4

Binary Installers: https://pypi.org/project/pandas

Source Repository: http://github.com/pandas-dev/pandas

Issues & Ideas: https://github.com/pandas-dev/pandas/issues

Q&A Support: http://stackoverflow.com/questions/tagged/pandas

Developer Mailing List: http://groups.google.com/group/pydata

pandas是一个Python包，提供快速，灵活和富有表现力的数据结构，旨在使“关系”或“标记”数据的使用既简单又直观。它旨在成为在Python中进行实际的真实世界数据分析的基础高级构建块。此外，它还有更广泛的目标，即成为以任何语言提供的最强大，最灵活的开源数据分析/操作工具。它已朝着这个目标迈进。

pandas非常适合许多不同类型的数据：

具有异构类型列的表格数据，如SQL表或Excel电子表格中

有序和无序（不一定是固定频率）时间序列数据。

具有行和列标签的任意矩阵数据（均匀类型或异构）

任何其他形式的观察/统计数据集。实际上不需要将数据标记为放置在pandas数据结构中

pandas的两个主要数据结构，Series（1维）和DataFrame（2维），处理金融，统计，社交中的绝大多数典型用例科学，以及许多工程领域。对于R用户，DataFrame提供R的data.frame提供的所有内容以及更多内容。 pandas建立在NumPy之上，旨在与许多其他第三方库很好地集成在科学计算环境中。

以下是Pandas做得很好的一些事情：

在浮点和非浮点数据中轻松处理缺失数据 missing data（表示为NaN）

大小可变性：列可以从DataFrame和更高维对象插入和删除

自动和显式数据对齐：对象可以显式对齐到一组标签，或者用户可以简单地忽略标签并让Series，DataFrame 等在计算中自动为您调整数据

功能强大，灵活的group by功能，可对数据集执行拆分应用组合操作，用于聚合和转换数据

使易于将其他Python和NumPy数据结构中的不同索引数据转换为DataFrame对象

大数据集的基于智能标签的切片，花式索引和子集

直观的合并和连接数据集

灵活的重塑和数据集的旋转

轴的分层标记（每个刻度可能有多个标签）

强大的IO工具，用于从平面文件（CSV和分隔），Excel文件，数据库以及从超快HDF5格式保存/加载数据中加载数据

时间序列 - 特定功能：日期范围生成和频率转换，移动窗口统计，移动窗口线性回归，日期转换和滞后等。

其中许多原则旨在解决使用其他语言/科学研究环境时经常遇到的缺点。对于数据科学家来说，处理数据通常分为多个阶段：整理和清理数据，分析/建模数据，然后将分析结果组织成适合绘图或表格显示的形式。 pandas是完成所有这些任务的理想工具。

其他一些说明

pandas is fast. 许多低级算法位已在Cython代码中进行了大量调整。然而，与其他任何事物一样，通常会牺牲性能。因此，如果您专注于应用程序的一个功能，您可以创建一个更快的专用工具。

pandas是statsmodels的依赖，使其成为Python中统计计算生态系统的重要组成部分。

pandas已广泛用于金融应用的生产中。

Note

本文档假定您对NumPy有一般的了解。如果你还没有多少使用NumPy，那么首先要花一些时间学习NumPy。

有关库中的内容的更多详细信息，请参阅包概述。

Table Of Contents

Search

pandas：功能强大的Python数据分析工具包¶