一、Numpy
(Numerical Python的简称)是python科学计算的基础包。
提供了以下功能:
1.快速高效的多为数组对象ndarray
2.用于对数组执行元素级计算以及直接对数组执行数学运算的函数
3.用于读写硬盘上基于数组的数据集的工具
4.线性代数运算、傅里叶变换,以及随机数生成
5.用于将C、C++、Fortran代码集成到python的工具
除了为python提供快速的数组处理能力,Numpy在数据分析方面还有一个主要作用即作为算法之间传递数据的容器。
由低级语言C和Fortran编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。
二、pandas
提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。
DataFrame是一个面向列的二维表结构,且含有行标和列标。
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。提供了复杂精细的索引功能,以便便捷的完成重塑、切片和切块、聚合以及选取数据子集等操作。
三、matplotlib
是最流行的用于绘制数据图表的python库。它跟IPython结合的很好,因而提供了一种非常好用的交互式数据绘图环境。
四、IPython
是python科学计算标准工具集的组成部分,它将其他所有的东西联系到了一起。它为交互式和探索式计算提供了一个强健而高效的环境。是一个增强的Python shell,目的是提高编写、测试、调试python代码的速度。
五、SciPy
scipy是一组专门解决科学计算中各种标准问题域的包的集合。
参考:《利用Python进行数据分析》--Wes McKinney著