在PyCharm中使用Pandas进行数据统计的一些设置

最近学习了R语言的数据统计,随即对统计分析产生了一些兴趣,进而尝试使用更加擅长的Python语言进行数据分析和挖据。

网上的大多数教程都喜欢在 iPython 环境中进行交互操作,但我更喜欢在 PyCharm IDE中进行编写,可以拥有更好的编程环境、代码提示、补全等一系列的优点。最终要的是所有的代码都可以保存在脚本文件中,方便重现和分享,这才是开发环境或生产环境中应有的方式。

首先需要说明的是,这篇文章是针对Linux发行版OpenSuSE在PyCharm或其他IDE或编辑器使用常规编写或调试代码的方式使用Pandas进行数据分析的重要配置细节。其他发行版的配置雷同,因为这些都是通用的小细节,没有任何Hack魔法。Python的版本是Python3.4,截止目前没有发现任何问题;最近毫无原因的不想使用Python2,就是这么任性。

PS. OpenSuSE使用起来很舒服,Ubuntu14.04的各种崩溃实在是受够了.

首先要小小的吐槽一下,心急的小伙伴们可以直接跳到这里

之前尝试在非iPython环境中按照《利用Python进行数据分析》书中的代码学习,但是坑爹的发现了根本无法现实图像!!摸索中发现保存图像的功能还是有的,所以应该是后端的设置问题。

在 Google 上搜索了半天,没有发现什么相关的资料,看来科研与折腾技术不能两全啊。英文搜索中找到了一些模棱两颗的信息,有人说OpenSuSE中在打包Matplotlib的时候,脑洞大开的将后端的”Windowing”组建当成了Windows操作系统的后端,连同Mac相关的后端一并删除了;同时还找到一个老外信誓旦旦的说在PyCharm中显示图像是没有可能的。我当时发现了这些信息的时候已经绝望了,甚至把OpenSuSE改成了Gentoo…

言归正传,后来不甘心,继续钻研之下发现 OpenSuSE 13.2 中早已经修复了这个问题,而且将各个后端都分开打包好了。

代码中手动设置后端

由于不熟悉KDE的技术结构,首先尝试了Qt5后端,但是运行代码的时候还是没有任何反应。一一尝试之下发现TK后端是可行的。所以,如下:

  1. 使用软件管理器安装Matplotlib的TK后端,其他发行版的用户自行适配:

    sudo zypper in python3-matplotlib-tk
    
  2. 在代码中手动指定后端,需要在 pandas 和 pyplot 之前执行:

    import import matplotlib
    ###对,就是这么一行代码###
    matplotlib.use('TkAgg')  
    from pandas import DataFrame, Series
    from matplotlib import pyplot as plt
    import pandas as pd
    import numpy as np
    ……
    
  3. 配置好图像以后手动显示图像(该数据引子Cloga的文章,我是有素质的人!):

    url = 'http://s3.amazonaws.com/assets.datacamp.com/course/dasi/present.txt'
    present = pd.read_table(url, sep=' ')
    present_year = present.set_index('year')
    present_year['boys'].plot()
    ……
    ###最后加上这两段代码就可以显示图像了###
    plt.legend(loc='best')
    plt.show()
    

    完成了上面的几个步骤,就可以得到新鲜出炉的统计图了。

PyCharm上的做图结果

截止发文之前,在Google上几乎搜索不到相关的文章,转载请注明作者:LimeQM,谢谢!