spark机器学习库指南[Spark 1.3.1版]

本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]

 Read more

spark机器学习库指南[Spark 1.3.1版]——基础统计(Basic statistics)

下面是章节基础统计的目录(其他内容参见全文目录)

汇总统计(Summary statistics)

使用Statistics中的colStats方法,我们可以对RDD[Vector]做列汇总统计。

 Read more

spark机器学习库指南[Spark 1.3.1版]——数据类型(Data Types)

下面是章节数据类型的目录(其他内容参见全文目录)

spark机器学习库指南[Spark 1.3.1版]——优化(Optimization)

下面是章节优化的目录(参见全文目录)

spark机器学习库指南[Spark 1.3.1版]——线性模型(Linear Models)

下面是章节线性模型的目录(其他内容参见全文目录)

spark机器学习库指南[Spark 1.3.1版]——朴素贝叶斯(Naive Bayes)

下面是章节朴素贝叶斯的正文(其他内容参见全文目录)

朴素贝叶斯是一个简单的多分类算法。之所以称为朴素,是因为该算法假设特征之间相互独立。朴素贝叶斯的训练非常高效:通过一趟遍历训练数据,计算出每个特征对于给定标签的条件概率分布,然后应用贝叶斯定理计算标签对于观察值的条件概率分布,最后使用这个条件概率进行预测。

 Read more