spark二进制文件读写

在大数据处理中,有时候要将spark集群上处理好的数据拷贝到本地做进一步处理:比如本地单机运算或者作为在线服务的数据。如果直接拷贝字符串文本,耗费带宽和时间。如何来优化这个拷贝性能呢?假设要拷贝的是海量整数数据,比如Int32, 如果我们用字符串传递,可能需要10个Byte;如果使用二进制字节传递,我们只需要4个Byte。

 Read more

spark机器学习库指南[Spark 1.3.1版]——协同过滤(Collaborative Filtering)

下面是章节协同过滤的目录(其他内容参见全文目录)

spark机器学习库指南[Spark 1.3.1版]

本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]

 Read more

spark机器学习库指南[Spark 1.3.1版]——基础统计(Basic statistics)

下面是章节基础统计的目录(其他内容参见全文目录)

汇总统计(Summary statistics)

使用Statistics中的colStats方法,我们可以对RDD[Vector]做列汇总统计。

 Read more

spark机器学习库指南[Spark 1.3.1版]——数据类型(Data Types)

下面是章节数据类型的目录(其他内容参见全文目录)

spark机器学习库指南[Spark 1.3.1版]——优化(Optimization)

下面是章节优化的目录(参见全文目录)

spark机器学习库指南[Spark 1.3.1版]——树的集成(ensembles of trees)

下面是章节树的集成的目录(参见决策树,其他内容参见全文目录)