Spark

Spark

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉,求大佬分析原因何在。。

spark刘狗 回复了问题 • 5 人关注 • 3 个回复 • 3450 次浏览 • 2019-08-22 17:20 • 来自相关话题

java.io.IOException: Added a key not lexically larger

回复

hbasekite 发起了问题 • 1 人关注 • 0 个回复 • 235 次浏览 • 2019-07-18 11:27 • 来自相关话题

关于spark优化数据格式问题(fastUtil,jdk,hppc集合框架选择)

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 271 次浏览 • 2019-05-20 17:36 • 来自相关话题

spark连接Phoenix报错

Phoenixyangchenggang 回复了问题 • 4 人关注 • 7 个回复 • 2645 次浏览 • 2019-05-11 10:57 • 来自相关话题

如何保证sc读到的内容为空时,saveAsHadoopFile可以不生成空文件

sparkmachuan 回复了问题 • 3 人关注 • 2 个回复 • 820 次浏览 • 2019-05-04 23:19 • 来自相关话题

spark Streaming的batch Time可以动态修改吗

sparkzb 回复了问题 • 3 人关注 • 2 个回复 • 314 次浏览 • 2019-04-30 11:48 • 来自相关话题

在yarn上跑spark任务,NodeManager的Container频繁自杀

sparklinefly 回复了问题 • 2 人关注 • 4 个回复 • 1291 次浏览 • 2019-04-22 22:30 • 来自相关话题

spark 数据倾斜解决思路?

回复

spark刘狗 发起了问题 • 0 人关注 • 0 个回复 • 391 次浏览 • 2019-03-20 18:28 • 来自相关话题

spark读取redis只能返回string类型的RDD,如果redis中存储protobuf序列化后的byte[],spark该怎么获取到结果的类型是byte[]的RDD

回复

spark刘狗 回复了问题 • 1 人关注 • 1 个回复 • 490 次浏览 • 2019-03-19 08:31 • 来自相关话题

在spark算子中开辟内存保存结果数据,这样做高效吗

sparkmuyuan 回复了问题 • 2 人关注 • 1 个回复 • 409 次浏览 • 2019-03-13 20:13 • 来自相关话题

structured streaming与kafka010整合的问题

回复

sparkchensi 发起了问题 • 1 人关注 • 0 个回复 • 1475 次浏览 • 2019-01-25 14:39 • 来自相关话题

请问,stremaming对接kafka,消费到的每批次的数据量由什么决定

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 559 次浏览 • 2019-01-17 15:37 • 来自相关话题

com.google.protobuf.LazyStringList faultCodes_ = com.google.protobuf.LazyStringArrayList.EMPTY;

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 522 次浏览 • 2019-01-11 10:53 • 来自相关话题

HBASE针对spark的插件,有谁用过

回复

hbasetong 发起了问题 • 1 人关注 • 0 个回复 • 430 次浏览 • 2019-01-07 13:54 • 来自相关话题

java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

回复

spark刘狗 回复了问题 • 1 人关注 • 1 个回复 • 1049 次浏览 • 2019-01-03 18:27 • 来自相关话题

spark saveAsNewAPIHadoopDataset的方式入库hbase问题

sparkJepson 回复了问题 • 3 人关注 • 2 个回复 • 1606 次浏览 • 2018-12-19 16:15 • 来自相关话题

spark dataframe多次引用,是否应缓存

sparkwangfei 回复了问题 • 2 人关注 • 1 个回复 • 1078 次浏览 • 2018-12-14 14:03 • 来自相关话题

spark-streaming消费kafka数据 遇到了spark的bug (spark-22968)

spark过往记忆 回复了问题 • 2 人关注 • 3 个回复 • 2909 次浏览 • 2018-12-11 18:14 • 来自相关话题

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉,求大佬分析原因何在。。

spark刘狗 回复了问题 • 5 人关注 • 3 个回复 • 3450 次浏览 • 2019-08-22 17:20 • 来自相关话题

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉,求大佬分析原因何在。。

回复

spark刘狗 回复了问题 • 5 人关注 • 3 个回复 • 3450 次浏览 • 2019-08-22 17:20 • 来自相关话题

java.io.IOException: Added a key not lexically larger

回复

hbasekite 发起了问题 • 1 人关注 • 0 个回复 • 235 次浏览 • 2019-07-18 11:27 • 来自相关话题

关于spark优化数据格式问题(fastUtil,jdk,hppc集合框架选择)

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 271 次浏览 • 2019-05-20 17:36 • 来自相关话题

spark连接Phoenix报错

回复

Phoenixyangchenggang 回复了问题 • 4 人关注 • 7 个回复 • 2645 次浏览 • 2019-05-11 10:57 • 来自相关话题

如何保证sc读到的内容为空时,saveAsHadoopFile可以不生成空文件

回复

sparkmachuan 回复了问题 • 3 人关注 • 2 个回复 • 820 次浏览 • 2019-05-04 23:19 • 来自相关话题

spark Streaming的batch Time可以动态修改吗

回复

sparkzb 回复了问题 • 3 人关注 • 2 个回复 • 314 次浏览 • 2019-04-30 11:48 • 来自相关话题

在yarn上跑spark任务,NodeManager的Container频繁自杀

回复

sparklinefly 回复了问题 • 2 人关注 • 4 个回复 • 1291 次浏览 • 2019-04-22 22:30 • 来自相关话题

spark 数据倾斜解决思路?

回复

spark刘狗 发起了问题 • 0 人关注 • 0 个回复 • 391 次浏览 • 2019-03-20 18:28 • 来自相关话题

spark读取redis只能返回string类型的RDD,如果redis中存储protobuf序列化后的byte[],spark该怎么获取到结果的类型是byte[]的RDD

回复

spark刘狗 回复了问题 • 1 人关注 • 1 个回复 • 490 次浏览 • 2019-03-19 08:31 • 来自相关话题

在spark算子中开辟内存保存结果数据,这样做高效吗

回复

sparkmuyuan 回复了问题 • 2 人关注 • 1 个回复 • 409 次浏览 • 2019-03-13 20:13 • 来自相关话题

structured streaming与kafka010整合的问题

回复

sparkchensi 发起了问题 • 1 人关注 • 0 个回复 • 1475 次浏览 • 2019-01-25 14:39 • 来自相关话题

请问,stremaming对接kafka,消费到的每批次的数据量由什么决定

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 559 次浏览 • 2019-01-17 15:37 • 来自相关话题

com.google.protobuf.LazyStringList faultCodes_ = com.google.protobuf.LazyStringArrayList.EMPTY;

回复

spark刘狗 发起了问题 • 1 人关注 • 0 个回复 • 522 次浏览 • 2019-01-11 10:53 • 来自相关话题

HBASE针对spark的插件,有谁用过

回复

hbasetong 发起了问题 • 1 人关注 • 0 个回复 • 430 次浏览 • 2019-01-07 13:54 • 来自相关话题

java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

回复

spark刘狗 回复了问题 • 1 人关注 • 1 个回复 • 1049 次浏览 • 2019-01-03 18:27 • 来自相关话题

spark saveAsNewAPIHadoopDataset的方式入库hbase问题

回复

sparkJepson 回复了问题 • 3 人关注 • 2 个回复 • 1606 次浏览 • 2018-12-19 16:15 • 来自相关话题

spark dataframe多次引用,是否应缓存

回复

sparkwangfei 回复了问题 • 2 人关注 • 1 个回复 • 1078 次浏览 • 2018-12-14 14:03 • 来自相关话题

spark-streaming消费kafka数据 遇到了spark的bug (spark-22968)

回复

spark过往记忆 回复了问题 • 2 人关注 • 3 个回复 • 2909 次浏览 • 2018-12-11 18:14 • 来自相关话题

使用 Spark 分析 HBase 的数据

hbase过往记忆 发表了文章 • 2 个评论 • 1244 次浏览 • 2018-11-28 11:08 • 来自相关话题

HBase具有很好的在线入库和查询能力,不过在分析上面有比较大的欠缺,这篇文章主要介绍如何使用Spark对HBase中数据做复杂分析。

HBase查询分析的现状
 
HBase原生API:HBase原生API适合基于row key做点查,这个是HBase最擅长的查询场景Phoenix:Phoenix作为HBase的SQL层,使用二级索引的技术,擅长多条件组合查询;Phoenix没有自己的计算资源,类似groupby这样的复杂查询需要借助HBase的协处理器来完成,这样一方面性能不好,同时会影响HBase集群的稳定性;Spark:具有丰富的算子支持复杂分析,使用Spark集群的计算资源,通过并发分析的方式可以提高性能,同时不影响HBase集群的稳定性。

Spark分析HBase的方式对比

Spark分析HBase数据有“RDD API”、“SQL API”、“HFILE”三种方式,相关对比如下:





 
对于数据动态更新增加的小表推荐使用SQL API的方式,可以有效的优化分析,减少对HBase集群稳定性的影响;对于静态表或者全量静态表的分析推荐使用分析HFILE的方式直读HDFS,这样可以完全不影响HBase集群稳定性;不推荐使用RDD API 的方式,这种方式一方没有优化性能差,同时在高并发以及表数据量大时,会严重影响HBase集群的稳定性,从而影响在线业务。

 三种方式的具体使用

阿里云HBase团队为大家提供了一个github项目供大家参考使用上面的三种方式来开发Spark分析HBase的程序,项目地址:

https://github.com/lw309637554/alicloud-hbase-spark-examples

依赖项:需要下载云HBase及云Phoenix的client包
分析HFILE:
需要先开通云HBase的HDFS访问权限,参考文档在hbase shell中对表生成snapshot表“snapshot 'sourceTable', ‘snapshotName'”在项目中配置自己的hdfs-sit.xml文件,然后通过直读HDFS的方式分析snapshot表

具体的example
RDD API对应:org.apache.spark.hbase.NativeRDDAnalyzeSQL API对应:org.apache.spark.sql.execution.datasources.hbase.SqlAnalyze分析HFILE对应:org.apache.spark.hfile.SparkAnalyzeHFILE
  查看全部
HBase具有很好的在线入库和查询能力,不过在分析上面有比较大的欠缺,这篇文章主要介绍如何使用Spark对HBase中数据做复杂分析。

HBase查询分析的现状
 
  • HBase原生API:HBase原生API适合基于row key做点查,这个是HBase最擅长的查询场景
  • Phoenix:Phoenix作为HBase的SQL层,使用二级索引的技术,擅长多条件组合查询;Phoenix没有自己的计算资源,类似groupby这样的复杂查询需要借助HBase的协处理器来完成,这样一方面性能不好,同时会影响HBase集群的稳定性;
  • Spark:具有丰富的算子支持复杂分析,使用Spark集群的计算资源,通过并发分析的方式可以提高性能,同时不影响HBase集群的稳定性。


Spark分析HBase的方式对比

Spark分析HBase数据有“RDD API”、“SQL API”、“HFILE”三种方式,相关对比如下:

menu.saveimg_.savepath20181128110650_.jpg

 
对于数据动态更新增加的小表推荐使用SQL API的方式,可以有效的优化分析,减少对HBase集群稳定性的影响;对于静态表或者全量静态表的分析推荐使用分析HFILE的方式直读HDFS,这样可以完全不影响HBase集群稳定性;不推荐使用RDD API 的方式,这种方式一方没有优化性能差,同时在高并发以及表数据量大时,会严重影响HBase集群的稳定性,从而影响在线业务。

 三种方式的具体使用

阿里云HBase团队为大家提供了一个github项目供大家参考使用上面的三种方式来开发Spark分析HBase的程序,项目地址:

https://github.com/lw309637554/alicloud-hbase-spark-examples

依赖项:需要下载云HBase及云Phoenix的client包
分析HFILE:
  • 需要先开通云HBase的HDFS访问权限,参考文档
  • 在hbase shell中对表生成snapshot表“snapshot 'sourceTable', ‘snapshotName'”
  • 在项目中配置自己的hdfs-sit.xml文件,然后通过直读HDFS的方式分析snapshot表


具体的example
  • RDD API对应:org.apache.spark.hbase.NativeRDDAnalyze
  • SQL API对应:org.apache.spark.sql.execution.datasources.hbase.SqlAnalyze
  • 分析HFILE对应:org.apache.spark.hfile.SparkAnalyzeHFILE

 
  

中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群