spark之MLLIB-白红宇

spark之MLLIB

阅读量：558 次

发布时间：2019-03-09

本文共 1655 字，大约阅读时间需要 5 分钟。

MLlib 是 Apache Spark 的机器学习库，旨在简化机器学习工作流程并提升扩展性。该库整合了多种常用算法和工具，涵盖分类、回归、聚类、协同过滤等核心任务，同时提供底层优化原语和高层管道 API，适用于大规模数据处理。

1. 算法工具

MLlib 提供了多种通用机器学习算法：

分类算法：如 logistic 回归、支持向量机 (SVM) 和随机森林。

回归算法：线性回归和支持向量回归。

聚类算法：K-means 和高斯混合模型 (GMM)。

协同过滤：基于用户- zboží矩阵的均 Appliances 意顾客推荐。

2. 特征化工具

MLlib 提供了多种特征化工具：

特征提取：如文本分词（通过 Tokenizer）。

特征转化：如 HashingTF，用于将文本转化为特征向量。

降维：如 PCA 和 t-SNE。

特征选择：如 Lasso 回归选择重要特征。

3. 工作流（PipeLine）

MLlib 的工作流是其核心功能之一。

3.1 工作流组成

DataFrame：作为数据处理的核心容器，类似于 SQL 中的表格，支持多种数据类型。

Transformer：定义转换器，将数据从一个形式转换为另一种形式，常用于预处理任务。

Estimator：定义估计器，用于模型训练和优化，例如随机森林算法。

Parameter：用于设置模型参数，统一管理参数配置。

PipeLine：将转换器和估计器按顺序组织，形成完整的工作流。

3.2 如何构建管道

通过代码示例可以看出工作流的构建步骤：

from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature import HashingTF, Tokenizer# 创建训练集 DataFramedf_train = spark.createDataFrame([    (0, "a b c d e spark", 1.0),    (1, "b d", 0.0),    (2, "spark f g h", 1.0),    (3, "hadoop mapreduce", 0.0)], ["id", "text", "label"])# 定义 PipeLine 阶段tokenizer = Tokenizer(inputCol="text", outputCol="words")hashTf = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")# 创建 PipeLine 实例，并训练模型pipeline = Pipeline(stages=[tokenizer, hashTf, lr])model = pipeline.fit(df_train)# 创建测试集df_test = spark.createDataFrame([    (4, "spark i j k"),    (5, "l m n"),    (6, "spark hadoop spark"),    (7, "apache hadoop")], ["id", "text"])# 进行预测predict = model.transform(df_test)predict.show()

4. 模型训练与测试

通过上述代码可以观察到模型训练和测试的完整流程：

训练阶段：输入文本数据经过分词、特征提取后，输入到 logistic 回归模型中进行训练。

测试阶段：利用测试集数据经过同样的预处理，最终得到预测结果。

5. 工作流优势

工作流的核心优势在于实现了多任务机器学习的自动化，用户无需手动调整各个算法之间的依赖关系。在 MLlib 中，可以轻松组合多种算法，形成复杂的工作流，充分发挥大规模数据处理能力。

转载地址：http://oubpz.baihongyu.com/

你可能感兴趣的文章