spark dataframe多次引用,是否应缓存

问题1:
spark dataframe在scala的主运行function中多次当成变量给多个函数引用,而这个dataframe是通过多个中间结果集汇总来的,想问下,这样的dataframe被多次当成变量引用,是否应该进行cache?
 
问题2:
dataframe以下的cache方法,在最后能够正常是否内存吗?
命令:
dataframe.cache()
dataframe.groupby(xxx)
dataframe.unpersist()
已邀请:

wangfei - sparker@netease

赞同来自:

如果使用多次应该进行cache;
dataFrame的cache方法默认缓存级别为MEMORY_AND_DISK. 可能会部分存在于磁盘

要回复问题请先登录注册


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群