title: Python第三阶段学习总结
category: Python数据分析
date: 2021/12/03
我们提到数分析这个词很多时候可能指的都是狭义的数据分析,这类数据分析主要目标就是生成可视化报表并通过 这些报表来洞察业务中的问题。广义的数据分析还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分 析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,⼀ 个完整的数据分析应该包括基本的数据分析和深⼊的数据挖掘两个部分。
基本的数据分析工作⼀般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
深入的数据挖掘工作通常包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
NumPy:支持常见的数组和矩阵操作,通过 ndarray
类实现了对多维数组的封装,提供了操作这些数组的方法和函数集。由于 NumPy 内置了并行运算功能,当使用多核 CPU 时,Numpy会自动做并行计算。
Pandas:pandas的核心是其特有的数据结构 DataFrame
和 Series
,这使得 pandas 可以处理包含不同类型的数据的负责表格和时间序列,这⼀点是NumPy的 ndarray
做不到的。使用 pandas,可以轻松顺利的加载各种形式的数据,然后对数据进行切片、切块、处理缺失值、聚合、重塑和可视化等操作。
Matplotlib:matplotlib 是⼀个包含各种绘图模块的库,能够根据我们提供的数据创建高质量的图形。此外, matplotlib 还提供了 pylab 模块,这个模块包含了很多像 MATLAB ⼀样的绘图组件。