客户是有原程序的,用python处理千亿级数据并输出为txt,输出后文件不到2t,由于Python特性无法快速得到结果。
我用c语言将核心代码重新,并采用循环嵌套方式做数据处理(递归嵌套在这样的数据量面前调用所带来的额外开销就会大),最终数据处理会在几分钟内完成,程序瓶颈就是写入硬盘性能限制了,将近2t的数据写入硬盘需要好久啊。
点击空白处退出提示
客户是有原程序的,用python处理千亿级数据并输出为txt,输出后文件不到2t,由于Python特性无法快速得到结果。
我用c语言将核心代码重新,并采用循环嵌套方式做数据处理(递归嵌套在这样的数据量面前调用所带来的额外开销就会大),最终数据处理会在几分钟内完成,程序瓶颈就是写入硬盘性能限制了,将近2t的数据写入硬盘需要好久啊。
评论