spark的rdd进行groupby以后有时需要对value处理
可以这样处理:
grouped=rdd.groupBy(lambda x: x[0]).map(lambda x : (x[0], list(x[1])))
之后可以循环处理 grouped里的对象,类似:
keys=grouped.keys().collect()for key in keys: value=grouped.lookup(key)
本文共 264 字,大约阅读时间需要 1 分钟。
spark的rdd进行groupby以后有时需要对value处理
可以这样处理:
grouped=rdd.groupBy(lambda x: x[0]).map(lambda x : (x[0], list(x[1])))
之后可以循环处理 grouped里的对象,类似:
keys=grouped.keys().collect()for key in keys: value=grouped.lookup(key)
转载于:https://www.cnblogs.com/deityjiangyu/p/7479805.html