spark二进制文件读写

在大数据处理中,有时候要将spark集群上处理好的数据拷贝到本地做进一步处理:比如本地单机运算或者作为在线服务的数据。如果直接拷贝字符串文本,耗费带宽和时间。如何来优化这个拷贝性能呢?假设要拷贝的是海量整数数据,比如Int32, 如果我们用字符串传递,可能需要10个Byte;如果使用二进制字节传递,我们只需要4个Byte。

 Read more