Python如何高效省时将几十亿行数据中的某一列保存到另一文件中?
关注者
12被浏览
4,392登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
pandas可以的。
import pandas as pd
reader = pd.read_csv('test1.csv',chunksize=100,iterator=True)
count = 0;
for chunk in reader:
count += 1
if count ==1:
chunk.to_csv('test4.csv',index = False)
elif count>1 and count<1000:
chunk.to_csv('test4.csv',index = False, mode = 'a',header = False)
else:
break
将文件分块进行读取写入,chunksize设置每次读取的大小,你可以详细了解一下这个参数,chunksize与count可以控制想要写入的文件的大小。
to_csv()的columns参数可以指定写入的列
一般这段代码是用来分割数据集的,避免数据集过大。。。希望对你有帮助