spark dataset 聚合操作问题

dataset里数据聚合 api中我看只有reduce和groupbykey操作,如果根据业务进行数据聚合操作,是只能用groupbykey 再mapgroups的方式吗,reduce方法我看返回值是一个dataset,在reduce里自定义方法两个dataset进行比较合并,如果不符合聚合规则只能舍弃一个dataset。除了groupbykey 再mapgroups还有其他方式吗,如果没有,那在需要数据聚合的场景下是选择rdd reducebykey的操作还是dataset groupbykey mapgroups的方式呢?
已邀请:

Genieliu

赞同来自:

不是还有groupBy吗?

要回复问题请先登录注册


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群