hbase非rowkey情况下只使用过滤器查询指定记录,部分结果未返回

使用pyspark的newAPIHadoopRDD 去读取hbase的数据,由于rowkey离散,无法使用指定rowkey范围查询,只能根据过滤器进行条件过滤查询,查询的表数据量在1.5T以上,查询返回的结果有时只有1条记录,有时有2条记录,但实际符合条件的有6条才对。
请问为何会这样的?
有大神遇到过相同类似的问题吗?
对于这种大数据量表的查询,用spark进行查询,rowkey应该怎么设计会比较合适?
hbase版本1.2
spark版本2.31
已邀请:

要回复问题请先登录注册


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群