Python如何高效省时将几十亿行数据中的某一列保存到另一文件中?

Question

Python如何高效省时将几十亿行数据中的某一列保存到另一文件中?

我试着用csv的readline循环读，每次每一千万行。结果跑了一晚上十几个小时只写进了一亿数据。我发现读的速度其实是很快的，但是写的速度，一小时不到…

关注者

12

被浏览

4,392

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 7 个回答

pandas可以的。

import pandas as pd
reader = pd.read_csv('test1.csv',chunksize=100,iterator=True)
count = 0;
for chunk in reader:
    count += 1
    if count ==1:
        chunk.to_csv('test4.csv',index = False)
    elif count>1 and count<1000:
        chunk.to_csv('test4.csv',index = False, mode = 'a',header = False)
    else:
        break

将文件分块进行读取写入，chunksize设置每次读取的大小，你可以详细了解一下这个参数，chunksize与count可以控制想要写入的文件的大小。

to_csv()的columns参数可以指定写入的列

一般这段代码是用来分割数据集的，避免数据集过大。。。希望对你有帮助

编辑于 2019-11-16 21:04

查看全部 7 个回答