pandas这个库很好用、很大、很厉害,但是有问题:大。
基本上,用的上pandas,程序大小动辄300M。然后这个程序基本上也就告别秒开了。
今天做一个小功能,需要从数据库导出到CSV文件,想了想,不用pandas了。
第一个问题:数量不算小,一次读入内存太大。一行一行粒度又太小(大概100W行)
然后,整理了一下基本的业务逻辑:
先生成一个空CSV文件,然后生成标题。
然后,查出大概20000行,就写入到文件中。
最后,当无法从数据库中读取任何行数的时候,直接保存。
然后网查,发现所有的行后面都多一个空行。
网上这个就很多了:网查需要设置一个参数:newline=’’。windows似乎会自动补齐一行。
脚本是:(or_cursor是游标)
active_file = 'XXXXXX' # 这是标题 with open(active_file, 'w+', encoding='gbk',newline='') as f: f_csv = csv.writer(f) f_csv.writerows([['城市', '县市', '网元名', 'alarm_node', 'title', '故障发生时间', '告警清除时间']]) for i in range(10000): active_line = or_cursor.fetchmany(2000) if active_line: logger.debug('正在获取信息!') # logger.debug(active_line) time.sleep(2) with open(active_file, 'a+', encoding='gbk', newline='', errors='replace') as f: f_csv = csv.writer(f) f_csv.writerows(active_line) else: logger.info('获取全部信息!') logger.info('生成文件:{}'.format(active_file)) break
生成的脚本大概7M左右,比较满意。