Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现

慈云数据 8个月前 (03-12) 技术支持 79 0

平台提供的Jupyter 接口可以让用户直接在网页实现对所租服务器的控制。

不用直接操作SSH。

创建实例后,快捷工具直接点Jupyter,这时你就已经在操作你租的服务器了,已经实现和你服务器的连接了。

打开终端那个黑框,你就已经在使用你租的服务器的Linux系统了,就已经可以通过输入Linux命令来对你租的系统里的资源进行使用了。

环境搭建

一开始自己设置的环境是服务器默认环境,可能够用,也可能不够。

不够的话可以通过anconda来搭建:

在AutoDL平台租用的服务器上搭建、激活和查看环境,可以按照以下步骤进行:

  1. 创建并激活环境

在AutoDL平台租用的服务器上搭建环境可以使用conda或者pip等工具,具体步骤如下:

  • 使用conda创建环境:

    conda create--name my_env python=3.7
    source activate my_env

    这里的my_env是你指定的环境名称,python=3.7是你指定的Python版本。使用source activate my_env命令激活环境。

    • 使用pip创建虚拟环境:

      python -m venv my_env
      source my_env/bin/activate

      这里的my_env是你指定的环境名称。使用source my_env/bin/activate命令激活环境。

      激活环境后,你可以在该环境中安装和使用所需的Python库和工具。

      1. 构造环境

      以安装PyTorch包为例

      安装PyTorch可以使用conda或者pip等工具,具体步骤如下:

      • 使用conda安装PyTorch:

        conda install pytorch torchvision cudatoolkit=10.1-c pytorch

        这里的cudatoolkit=10.1是针对CUDA 10.1版本的,如果你使用的是其他版本的CUDA,需要修改对应的参数。

        • 使用pip安装PyTorch:

          pip install torch torchvision

          如果你使用的是GPU版本的PyTorch,需要安装对应的CUDA和cuDNN等工具。

          1. 查看环境

          查看环境可以使用以下命令:

          • 对于conda环境:

            conda info --envs

            这会列出所有已安装的conda环境,以及每个环境的路径和Python版本等信息。

            • 对于pip虚拟环境:

              source my_env/bin/activate
              python -m pip list

              这里的my_env是你指定的环境名称。使用python -m pip list命令列出该环境中

              文件上传

              在Jupyter里有个按钮,点开就能选择本地的文件进行上传。

              文件解压:

              需要提前在服务器里安装一个解压缩软件:

              • 对于Ubuntu/Debian系统:sudo apt-get install p7zip-full

                • 对于CentOS/Fedora系统:sudo yum install p7zip-full

                  1. 安装完成后,你就可以在终端中使用7z解压缩软件进行文件的解压缩了。在终端中输入以下命令进行解压缩:要进入文件所属目录才行

                  7z x filename.7z

                  这里的filename.7z是你需要解压缩的文件名。

                  如果安装不了,可能是因为软件源出现了问题:

                  尝试使用apt-get update命令更新软件包源,并重新运行apt-get install

                  直接用这行命令解决:

                  sudo apt-get update
                  

                  知识拓展:

                  更换软件源来解决问题。具体步骤如下:

                  1. 打开终端,并输入以下命令备份原来的软件源列表:

                  sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
                  1. 输入以下命令打开软件源配置文件

                  sudo nano /etc/apt/sources.list
                  1. 将原来的软件源地址替换成其他可用的软件源地址。例如,如果你使用的是Ubuntu系统,可以参考Ubuntu官方文档更换软件源。在配置文件中加入新的软件源地址后,可以使用Ctrl+X键保存并退出。

                  1. 更新软件包列表,使用以下命令更新软件包列表:

                  sudo apt-get update

                  跑模型:

                  单纯运行代码:

                  也就是在终端中直接运行。

                  打开控制台,

                  进入目标文件夹,

                  使用 python ***.py命令,

                  如果要运行的代码文件是python语言名叫***的话。

                  让代码在离线的情况下运行:

                  如果是在终端中直接运行的话,那么断开SSH连接时,程序就会停止。

                  也就是说断网或者关闭目前的Jupyter程序就会终止。

                  解决方法一:

                  1. 启动训练程序,并使用nohup命令和&符号将程序放到后台运行。例如:

                  nohup python train.py &

                  这里的train.py是你的训练程序名称,nohub命令可以让程序在后台运行,并忽略所有挂起信号(SIGNUP).

                  其中&表示将程序放到后台运行,并输出日志到nohunp.out(自动生成)文件中。

                  1. 如果需要查看训练日志,可以使用tail命令查看:

                  tail -f nohub.out

                  解决方法二:

                  1. 使用tmux或screen等工具创建一个会话。

                  • 如果你使用的是tmux,可以使用以下命令创建一个会话:

                    tmux new -s my_session_name
                    • 如果你使用的是screen,可以使用以下命令创建一个会话:

                      screen -S my_session_name

                      这里的my_session_name是你指定的会话名称。

                      1. 在会话中启动训练程序,例如:

                      python train.py

                      这样,训练程序将在会话中运行,即使你断开SSH连接或者退出终端,训练程序仍然会在后台继续运行。

                      1. 如果你需要重新连接到AutoDL服务器并查看训练日志,可以使用以下命令重新连接到会话:

                      • 如果你使用的是tmux,可以使用以下命令重新连接到指定的会话:

                        tmux attach -t my_session_name
                        • 如果你使用的是screen,可以使用以下命令重新连接到指定的会话:

                          screen -r my_session_name

                          让程序终止运行:

                          方法一:

                          输入

                          sudo killall python

                          这个命令可以停止所有python程序的运行。

                          如果出现command not found错误可能是系统没装这个命令,

                          可以通过

                          sudo apt-get install psmisc

                          来安装

                          再不行就用:

                          sudo pkill python

                          同样可以停止所有python程序的运行

                          方法二:

                          1. 找到正在运行模型的进程ID,使用以下命令查找:

                          ps aux | grep python
                          ps aux | grep train.py

                          这里的python是你使用的深度学习框架的解释器名称,例如TensorFlow和PyTorch都是使用python作为解释器。查找结果会显示正在运行的所有python进程及其进程ID。

                          如果把python换成train的话,就会列出所有正在运行的train进程。

                          1. 使用kill命令停止模型的运行,例如:

                          kill -9 process_id

                          这里的process_id是你查找到的模型进程ID。

                          1. 确认模型已经停止运行,你可以使用以下命令查看进程是否已经终止:

                          ps aux | grep python

                          如果模型的进程已经终止,将不会显示在查找结果中。

                          需要注意的是,使用kill命令可以强制停止模型的运行,但是这样可能会导致模型在停止前未保存的训练结果丢失。因此,在停止模型之前,建议保存训练结果和模型参数,以便以后继续训练或者使用。

                          路径问题

                          pwd 命令查看当前路径

                          如果是绝对路径,那么一定是/root开头

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon