python数据分析学习笔记

Python数据挖掘相关扩展库

扩展库 简介
Numpy 提供数组支持,以及相应的高效的处理函数
Scipy 提供矩阵支持,以及矩阵相关的数值计算模块
Matplotlib 强大的数据可视化工具、作图库
Pandas 抢答、灵活的数据分析和探索工具
StatsModels 统计建模和计量经济学,包括描述统计、统计模型估计和推断
Scikit-Learn 支持回归、分类、聚类的强大的机器学习库
Keras 深度学习库,用于建立神经网络以及深度学习模型
Gensim 用来做文本提模型的库,文本挖掘可能用到

Numpy:
内置函数处理数据的速度是C语言级别的,因此编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象
(尤其是涉及循环的问题)
示例:
# -- coding: utf-8 -
import numpy as np # 一般以np作为numpy的别名
a = np.array([2, 0, 1, 5]) #创建数组
print(a)
print(a[:3])
print(a.min()) #输出a的最小值
print(a.max()) #输出a的最大值
a.sort()
b = np.array([[1, 2, 3], [4, 5, 6]]) #创建二维数组
print(b*b)
输出结果:
[2 0 1 5]
[2 0 1]
0
5
[[ 1 4 9] [16 25 36]]
Scipy:
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分
方程求解和其他科学与工程中常用的计算。