やっぱりGPUサーバのTensorFlowが動かない月曜日
やっぱりTensorFlowがimportできません。
長らく格闘してみて、原因はCUDAとcuDNNのバージョンが10.1であるからだと分かりました。(もしかしたら違う原因かもしれないけどこれが違ったら本格的にお手上げ)
どうやらTensorFlowは最新のものでも10.0までしか対応してないらしく、10.1だとエラーを返すらしいです。ネットでそれらしいエラーを返されている人が続出してました。
ということで原因がわかったのですが、その解決策としては、
- ・先生にCUDA10.0とcuDNN10.0をGPUサーバの /usr/local/ 以下にインストールしてもらう。
- ・自分のホームディレクトリにCUDA10.0とcuDNN10.0をインストールする。
- ・CUDA9.0はすでにGPUサーバに入っているから、自分でcuDNN9.0をインストールして、TensorFlowもバージョン9.0に対応したものを入れ直す。
があるかなと。
すでにホームディレクトリにあるPGIコンパイラのCUDA10.0を使うという選択肢もあったのですが、そこにあるCUDAにPATHを通してTensorflowをimportしてもエラーを返されました。そもそもnvccから使えなかったのであれは使い物にならないおそれがある。分からないけど。
自分でできる解決策としては3が最良な気がします。2はCUDAをインストールする必要があり、CUDAをインストールするにはnvidiaドライバを入れる必要があるので。
まあ、僕以外のユーザーが使うことを考えたら解決策1が一番いいに決まっているので明日のゼミで先生に伝えようと思います。
明日の午前で解決策3を試して、ちゃんとTensorFlowを動かせるようにしてからゼミに臨みたいのですが。