pandas:功能强大的Python数据分析工具包

PDF Version

Zipped HTML

Date: Aug 05, 2018 Version: 0.23.4

Binary Installers: https://pypi.org/project/pandas

Source Repository: http://github.com/pandas-dev/pandas

Issues & Ideas: https://github.com/pandas-dev/pandas/issues

Q&A Support: http://stackoverflow.com/questions/tagged/pandas

Developer Mailing List: http://groups.google.com/group/pydata

pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观。 它旨在成为在Python中进行实际的真实世界数据分析的基础高级构建块。 此外,它还有更广泛的目标,即成为以任何语言提供的最强大,最灵活的开源数据分析/操作工具 它已朝着这个目标迈进。

pandas非常适合许多不同类型的数据:

  • 具有异构类型列的表格数据,如SQL表或Excel电子表格中
  • 有序和无序(不一定是固定频率)时间序列数据。
  • 具有行和列标签的任意矩阵数据(均匀类型或异构)
  • 任何其他形式的观察/统计数据集。 实际上不需要将数据标记为放置在pandas数据结构中

pandas的两个主要数据结构,Series(1维)和DataFrame(2维),处理金融,统计,社交中的绝大多数典型用例科学,以及许多工程领域。 对于R用户,DataFrame提供R的data.frame提供的所有内容以及更多内容。 pandas建立在NumPy之上,旨在与许多其他第三方库很好地集成在科学计算环境中。

以下是Pandas做得很好的一些事情:

  • 在浮点和非浮点数据中轻松处理缺失数据 missing data(表示为NaN)
  • 大小可变性:列可以从DataFrame和更高维对象插入和删除
  • 自动和显式数据对齐:对象可以显式对齐到一组标签,或者用户可以简单地忽略标签并让SeriesDataFrame 等在计算中自动为您调整数据
  • 功能强大,灵活的group by功能,可对数据集执行拆分应用组合操作,用于聚合和转换数据
  • 使易于将其他Python和NumPy数据结构中的不同索引数据转换为DataFrame对象
  • 大数据集的基于智能标签的切片花式索引子集
  • 直观的合并连接数据集
  • 灵活的重塑和数据集的旋转
  • 轴的分层标记(每个刻度可能有多个标签)
  • 强大的IO工具,用于从平面文件(CSV和分隔),Excel文件,数据库以及从超快HDF5格式保存/加载数据中加载数据
  • 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期转换和滞后等。

其中许多原则旨在解决使用其他语言/科学研究环境时经常遇到的缺点。 对于数据科学家来说,处理数据通常分为多个阶段:整理和清理数据,分析/建模数据,然后将分析结果组织成适合绘图或表格显示的形式。 pandas是完成所有这些任务的理想工具。

其他一些说明

  • pandas is fast. 许多低级算法位已在Cython代码中进行了大量调整。 然而,与其他任何事物一样,通常会牺牲性能。 因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专用工具。
  • pandas是statsmodels的依赖,使其成为Python中统计计算生态系统的重要组成部分。
  • pandas已广泛用于金融应用的生产中。

Note

本文档假定您对NumPy有一般的了解。 如果你还没有多少使用NumPy,那么首先要花一些时间学习NumPy

有关库中的内容的更多详细信息,请参阅包概述。

Scroll To Top