首页 > 数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!正文

数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!

2020-04-22 相关聚合阅读:数据挖掘 利器 眼中 工程师 工具 分析 周知!

原标题:数据挖掘工程师眼中的利器:Python大数据挖掘分析工具,望周知!

当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。

其中Python作为目前最炙手可热的编程语言,将C++斩于马下,跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话,那就真的Out了!

Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。

Python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。

今天我们就来讲述一下Python大数据挖掘分析的工具:

一、Numpy工具

Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。

为此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库,Scipy、Matplotlib、Pandas等库都依赖于它。

值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。

linux安装命令:

pip install numpy (安装加速的地址请留言获取)

二、Scipy工具

Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。

Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。

pip install scipy(安装加速的地址请留言获取)

三、MatPlotlib工具

不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。

它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。

pip install matplotlib(安装加速的地址请留言获取)

四、Pandas工具

Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上,它使得以NumPy为中心的应用很容易使用。

Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初被作为金融数据分析工具而开发出来,由AQR Capital Management公司于2008年4月开发出来,并于2009年底开源。

Pandas的功能非常强大,支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。

Pandas基本的数据结构是Series和Data Frame,Series就是序列,类似一维数组;Data Frame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。

为了定位Series中的元素,Pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键。

类似地,Data Frame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Seiries都带有唯一的表头,用来标识不同的series。

pip install pandas(安装加速的地址请留言获取)

pip install xlrd(安装加速的地址请留言获取)

pip install xlwt(安装加速的地址请留言获取)

五、StatsModels工具

pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组合。

pip install statsmodels(安装加速的地址请留言获取)

六、Keras工具

Keras库搭建神经网络,是基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的,因此速度也相当快。

Theano也是Python的一个库,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了GPU加速,使得密集型数据的处理速度是CPU的数十倍。

Linux执行keras快于Windows,工作中建议使用Linux执行keras。

pip install theano keras(安装加速的地址请留言获取)

pip install --ignore-installed tensorflow keras(安装加速的地址请留言获取)

如读者希望在windows环境中搭建Keras可参考下面的安装方法:

(1)安装Anaconda3-2019.10-Windows-x86_64.exe

可在anaconda官方下载

(2)配置path安装路径(假设安装在C:Anaconda3)

C:Anaconda3condabin

(3)安装mingw,执行下面3个命令

conda config --add channels

(安装加速的地址请留言获取)

conda config --set show_channel_urls yes

conda install mingw libpython

(4)配置path安装路径

C:Anaconda3MinGWin

C:Anaconda3MinGWx86_64-w64-mingw32lib

(5)pip install theano keras(安装加速的地址请留言获取)

如果pip命令无法使用配置path路径指向Python安装目录的Scripts路径

(6)lindux支持tensorflow,windows支持theano,更改keras默认后台为theano

修改当前用户下的C:UsersAdministrator.keraskeras.json,将tensorflow改成theano

如果找不到该文件在cmd命令中执行

python

import keras

提示不支持tensorflow,此时会创建出keras.json

或直接使用课件中给出的.keras目录赋值到当前用户目录下

(7)再次在cmd命令中执行

看到Using Theano backend则安装成功

好了,今天的Python大数据挖掘分析的工具就介绍到这里,中培希望对今后从事Phthon大数据挖掘分析工作的小伙伴有一定的帮助!