Python3.5.3+conda+Jupyter Notebookでpyarrow(apache arrow)を使えるようにする
pythonのライブラリには、apache Arrowではない、arrowという日付や時刻に関する処理を行うライブラリもあるので注意。
ドキュメントでは、pipでインストールできると書いてあるのに、 pipではそんなパッケージはないと怒られた。
chie8842@chie-no-ubuntu:~/work/tensorflow$ pip install pyarrow Collecting pyarrow Could not find a version that satisfies the requirement pyarrow (from versions: ) No matching distribution found for pyarrow
JIRAを見ると、pipはarrow0.2では使えなくて、次のバージョンから対応する予定らしい。
https://issues.apache.org/jira/browse/ARROW-240
仕方ないのでconda環境構築。
※3/8現在、pyarrowの対象バージョンは、2.7,3.4,3.5のみ。
最新のanaconda3-4.3.0はpython3.6ベースなので、
python3.5.2ベースのanaconda3-4.2.0を入れる。
chie8842@chie-no-ubuntu:~/work/tensorflow$ pyenv install anaconda3-4.2.0 chie8842@chie-no-ubuntu:~/work/tensorflow$ pyenv local anaconda3-4.2.0 chie8842@chie-no-ubuntu:~/work/tensorflow$ python --version Python 3.5.2 :: Anaconda 4.2.0 (64-bit) ## 上記でpythonバージョンが切り替わっていない場合は、以下を実施して環境を更新する chie8842@chie-no-ubuntu:~/work/tensorflow$ pyenv rehash chie8842@chie-no-ubuntu:~/work/tensorflow$ conda create -n py3.5.3-conda4.2.0 python=3.5.3 anaconda chie8842@chie-no-ubuntu:~/work/tensorflow$ source ~/.pyenv/versions/anaconda3-4.2.0/bin/activate py3.5.3-conda4.2.0 (py3.5.3-conda4.2.0) chie8842@chie-no-ubuntu:~/work/tensorflow$ conda info -e # conda environments: # py3.5.3-conda4.2.0 * /home/chie8842/.pyenv/versions/anaconda3-4.2.0/envs/py3.5.3-conda4.2.0 root /home/chie8842/.pyenv/versions/anaconda3-4.2.0 (py3.5.3-conda4.2.0) chie8842@chie-no-ubuntu:~/work/tensorflow$ conda update conda (py3.5.3-conda4.2.0) chie8842@chie-no-ubuntu:~/work/tensorflow$ conda install -c conda-forge pyarrow
ついでにほかのライブラリもインストールしておく。
(py3.5.3-conda4.2.0) chie8842@chie-no-ubuntu:~/work/tensorflow$ conda install matplotlib seaborn scikit-learn
インストールされているライブラリ一覧を見る
(py3.5.3-conda4.2.0) chie8842@chie-no-ubuntu:~/work/tensorflow$ conda list (-n environment_name)
jupyter notebookを立ち上げる
jupyter notebook
これだとpyarrowが使えなかった。。。
py3.5.3-conda4.2.0をdeactivateして、condaのrootにpyarrowをインストールして、jupyter notebookを再起動すると、使えるようになってた。