spark kafka direct stream的一个问题

sparkstreaming使用kakfa direct streaming api创建streaming。这个api是从kafka文件中直接获取数据的,kafka topic有多少个分区就对应着stream中的rdd有多少个分区。我想问问如何在不增加kafka topic分区的前提下,增加rdd的中的分区呢?当然repartition就算了,shuffle过程不值当呀
已邀请:


当然repartition就算了,shuffle过程不值当呀


你这个是误区吧?如果shuffle的时间+后面计算的时间比没有shuffle的计算时间短那还是可以用repartition的。  

yangjifei - 士为知己者死

赞同来自: yangwanghui

1、增加rdd的分区有几种方式:
 (1)修改spark.default.parallelism的默认值
   (2)repartition重分区
 
2、topic分区的最大数量<= min(单台kafka集群设备的core),因为有多少分区就有多大的并行度,但是不能超过设备的core数量。
 
希望对小伙伴们有帮助。

UFO - 热衷大数据平台开发,github地址 https://github.com/teeyog

赞同来自:

要回复问题请先登录注册


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群