以下面的程序为例
首先准备好代码
把100个epoch改成1个epoch,因为只是为了调试,至于我为什么不在本地调试,主要是本地的内存不够,跑不动的,所以我干脆在服务器上跑
import os import torch from torch.utils.data import DataLoader import pytorch_lightning as pl from vis_model import HisToGene from utils import * from predict import model_predict, sr_predict from dataset import ViT_HER2ST, ViT_SKIN import pdb pdb.set_trace() fold = 5 tag = '-htg_her2st_785_32_cv' dataset = ViT_HER2ST(train=True, fold=fold) train_loader = DataLoader(dataset, batch_size=1, num_workers=4, shuffle=True) model = HisToGene(n_layers=8, n_genes=785, learning_rate=1e-5) trainer = pl.Trainer(gpus=0, max_epochs=1) trainer.fit(model, train_loader) print("训练完了") #trainer.save_checkpoint("model/last_train_"+tag+'_'+str(fold)+".ckpt")
可以看到,我在代码的开头使用了一个pdb.set_trace()
然后使用
就可以进入调试模式了,但是命令行有一个不好的地方就是这个代码不知道跑到哪里去了,这个时候需要借助本地的文件,自己试着理解
命令l
可以看到上下部分的代码
此处还有一个很重要的东西就是调试时不能并行的问题,否则就会出问题,因此需要把代码改成
import os import torch from torch.utils.data import DataLoader import pytorch_lightning as pl from vis_model import HisToGene from utils import * from predict import model_predict, sr_predict from dataset import ViT_HER2ST, ViT_SKIN import pdb #pdb.set_trace() fold = 5 tag = '-htg_her2st_785_32_cv' dataset = ViT_HER2ST(train=True, fold=fold) train_loader = DataLoader(dataset, batch_size=1, num_workers=0, shuffle=True) model = HisToGene(n_layers=8, n_genes=785, learning_rate=1e-5) trainer = pl.Trainer(gpus=0, max_epochs=1) #pdb.set_trace() trainer.fit(model, train_loader) print("训练完了") #trainer.save_checkpoint("model/last_train_"+tag+'_'+str(fold)+".ckpt")
num_workers=0记得修改,否则会报错
不仅是这样,这个在pycharm中也会同时出现