Java教程

pyspark 常用rdd函数例子

本文主要是介绍pyspark 常用rdd函数例子,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
## mapPartions
def model_pred(partitionData):
    updatedData = []
    for row in partitionData:
        pred_value = model.value.predict([row[2:]])[0]
        pred_value = float(round(pred_value,4))
        updatedData.append([row[0],row[1],pred_value])
    return iter(updatedData)

pred = df.rdd.mapPartitions(model_pred).toDF(['p_number','name',"score"])

model 需要广播

 

这篇关于pyspark 常用rdd函数例子的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!