在生物信息学领域, linux 是最常用的生产环境. 本文讨论如何在 bash 中使用 python, 以充分利用 python的可扩展性和语法糖, 避免同时需要编辑 python 和 bash 两个脚本
bash 可以直接通过调用变量, 将变量的内容放入字符串, 如
$ foo=fooo; echo $foo fooo
对于简单的功能, 可以直接通过 python -c
完成
注意: 需要用双引号将内容括住, 如果单引号在外, 则无法进行替换
$ foo=fooo; python -c 'print("$foo")' # 无法输出内容 $foo $ fii=`python -c "print('$foo'.replace('o', 'i'))"`; echo $fii fiii
或者可以用转义符 \
$ foo=fooo; python -c "print(\"$foo\"[:-1])" # 无法输出内容 foo
需求: 需要并行运行某一单线程程序, 已有一个通用的并行 python 脚本, 接受 cmd 命令, 和各参数组合, 关键代码如下:
def order_args(args: list) -> dict: list_args = {} for i, args_i in enumerate(args): i += 1 args_i: list = args_i.strip().split() list_args[f'_{i}'] = args_i list_args['_0'] = list(range(len(args_i))) for j in list_args['_0']: yield {k: v[j] for k, v in list_args.items()} def main(args): with ThreadPool(args.pool) as pool: # TODO: a function to handle command, stderr and stdout for args_i, returncode in pool.imap(lambda args_i: run(cmd, args_i), order_args(args.args)): pass def run(command: str, params: dict): #params = {f"_{i}": v for i, v in enumerate(params)} _i = params.pop('_0') one_command = command.format(**params) ret = subprocess.run(one_command, shell=True) # set stdout=-1 to use 'ret.stdout' (bytes) return params, ret.returncode
对应的每个命令中, 需要进行一次判断 (识别是细菌 Bacteria 或古菌 Archaea), 代码如下:
cmd="genome_dir=`pwd`/{_2}; mkdir "'$genome_dir'"; cd "'$genome_dir'" cp {_1} genome.fna domain="'`'"python -c "'"'"print(dict('a'='A','b'='B' ).get('{_3}'.lower()[0], 'G'))"'"'" "'`'" tRNAscan-SE -"'$domain'" "'$genome_dir'" \ -o tRNA.out \ -f tRNA.ss \ -m tRNA.stats \ --thread 1 " python Scripts/00_multish.py \ -p $THREAD -c "$cmd" -a "$faDIRs" "${BinIds}" "${Domains}"
其中, genome_dir=`pwd`/{_2}
直接被转换为对应路径, 而 "'$genome_dir'"
将在 python 脚本中转换
其中识别 domain
的方法, 相较 bash 语法更为明白.
多行 python 语句可以通过 <<
符号输入, 如
foo=fooo python << EOF print("$foo") EOF
输出 fooo
, 此时不需要考虑单引号和双引号的区别
#!/bin/bash #SBATCH 与作业提交系统相关的语句 """ " 2>/dev/null || printf "" :<<!EOF! * @Description: 文件相关信息 !EOF! set -e && echo "$0 $*" >&2 conda activate python39 ## flexible zone start ######################################################## genome_dir="Archaea" python <<!EOF! # """ if __name__ == '__main__': threads = "${SLURM_NTASKS}" genome_dir="${genome_dir}" ## flexible zone end ########################################################## import logging import os # python 语句 """`echo '"''"''"'` !EOF! # bash 语句 # """
#!/bin/bash #SBATCH 与作业提交系统相关的语句 """ " 2>/dev/null || printf "" :<<!EOF! * @Description: 文件相关信息 !EOF! set -e && echo "$0 $*" >&2 conda activate python39 ## flexible zone start ######################################################## genome_dir="Archaea" python <<!EOF! # """ if __name__ == '__main__': threads = "${SLURM_NTASKS}" genome_dir="${genome_dir}" ## flexible zone end ########################################################## import logging import os # python 语句 """`echo '"''"''"'` !EOF! # bash 语句 # """
但是, 如何将多行 python 获得的输出放入 bash 变量, 仍然不知道.
或许可以定义一个函数, 把 python 部分放进去?