问题动机;
在上传Imagenet数据集时,发现仅仅上传了998个压缩包,漏掉了两个…难道要重新上传嘛??
NO、NO、NO,下面介绍如何通过python的集合运算来得到哪两个压缩包漏传了。
首先获取已经上传的998个压缩包的文件名:
服务器端操作:
import os ls_linux=os.listdirs("./") set_linux=set(ls_linux) set_linux
即可得到已经上传到服务器里的998类压缩包。
然后复制结果到本地电脑上,赋值给一个新的集合set_linux。
本地电脑操作:
import os ls_win=os.listdirs(r"E:\ILSVRC2012_img_train") set_win=set(ls_win) set_win
利用集合之间的运算关系,求差集:
print(set_win.difference(set_linux))