单数RegionServer可以正常部署吗?

hbasexiaoxiaomo 回复了问题 • 2 人关注 • 1 个回复 • 2765 次浏览 • 2018-03-15 16:31 • 来自相关话题

hbase2什么时候发布?

hbasehmaster 回复了问题 • 5 人关注 • 3 个回复 • 2774 次浏览 • 2018-03-12 14:37 • 来自相关话题

HBase技术社区兼职招聘社区秘书

招聘hbase 发表了文章 • 0 个评论 • 648 次浏览 • 2018-02-09 17:19 • 来自相关话题

背景说明

HBase是一个分布式的面向列的开源数据库,是大数据生态圈中非常重要的一环,主要应用在大数据量(PB级)存储及超大规模(千万级QPS)随机读写访问。HBase在国内的火爆程度逐年上涨,但目前国内尚无一个有较大影响力的HBase从业者和爱好者的聚集地。

为了让众多HBase相关从业人员及爱好者有一个自由交流HBase相关技术的社区,阿里巴巴、小米、网易、京东、滴滴、知乎等公司的HBase技术研究人员共同发起了组建HBase技术社区。
 
由于各位公司的同学都非常忙,为了保障社区的正常运转,我们希望在此能找到一些志愿者,在未来一起将HBase技术社区做大做强做成圈内权威。


作为HBase社区秘书,你可以获得什么?

我们将有可能形成一个全国范围内20万HBase从业者、爱好者的社区,而你,是这个平台的搭建者,一个成熟的技术社区的影响力在国内的意义非比一般,你作为开拓者,价值非凡,这个牛也够你吹一辈子了。
你将与阿里巴巴、小米、网易、京东、滴滴、知乎等诸位产品和技术人员一同共事,在别的同学做兼职办家教发传单的时候,你就已经接触到了国内最顶尖的技术和产品人员,并获得他们的指导,学习到国内一流公司的工作方法,这将为你将来的职业生涯探明道路,打下坚实的基础,同时毕业后你将获得这些国内一流公司的优先录取权。你将学习到如何将一个社区从0打造成1的过程,这段经验足以让你在毕业找工作时遥遥领先你的同学,并成为你进入国内一流公司的重要砝码;你将接触到众多HBase相关技术,在DT时代,数据的重要性无须赘述,而你获得了最先进的大数据相关知识,这对你的学业方向或者职业方向,都大有裨益。
 
主要的事项:
组织线上线下会议,参加技术大会维护公众号、网站的日常维护负责收集、整理、发布技术文章
 
我们对你的要求:
必须是理工科专业,计算机、通信、自动化、电子专业优先考虑;必须学习过至少一门数据库相关的课程,对数据库有基础概念;必须是未来两年有时间精力保障社区工作的学生,另外大一新生还请专心学业;我们需要的合伙人是能至少与我们共事2年的同学,还请各位同学仔细斟酌后再投递简历。对社区运营工作有极大热忱,运营工作需要细心、耐心和责任心,请先思考你的性格和兴趣是否适合做这样一份工作。运营社区是几个公司有理想的产品和研发人员组建,非盈利性质,大家在一起是做一件意义非凡的事情,但我希望这个时代,能有一位不问物质但求本心的人与我们一同前行。有过微博、今日头条、微信公众号或QQ、微信群(100人以上)运营管理经验的同学优先考虑,聪明好学者也可以忽略这条,只要你有潜质,我们愿意培养你。

有意向者,可将简历发送至 wenzheng.zwz@alibaba-inc.com,或扫描以下微信二维码,注明应聘者身份,期待你与我们一起共创HBase国内第一大社区。 查看全部
背景说明

HBase是一个分布式的面向列的开源数据库,是大数据生态圈中非常重要的一环,主要应用在大数据量(PB级)存储及超大规模(千万级QPS)随机读写访问。HBase在国内的火爆程度逐年上涨,但目前国内尚无一个有较大影响力的HBase从业者和爱好者的聚集地。

为了让众多HBase相关从业人员及爱好者有一个自由交流HBase相关技术的社区,阿里巴巴、小米、网易、京东、滴滴、知乎等公司的HBase技术研究人员共同发起了组建HBase技术社区。
 
由于各位公司的同学都非常忙,为了保障社区的正常运转,我们希望在此能找到一些志愿者,在未来一起将HBase技术社区做大做强做成圈内权威。


作为HBase社区秘书,你可以获得什么?

我们将有可能形成一个全国范围内20万HBase从业者、爱好者的社区,而你,是这个平台的搭建者,一个成熟的技术社区的影响力在国内的意义非比一般,你作为开拓者,价值非凡,这个牛也够你吹一辈子了。
  • 你将与阿里巴巴、小米、网易、京东、滴滴、知乎等诸位产品和技术人员一同共事,在别的同学做兼职办家教发传单的时候,你就已经接触到了国内最顶尖的技术和产品人员,并获得他们的指导,学习到国内一流公司的工作方法,这将为你将来的职业生涯探明道路,打下坚实的基础,同时毕业后你将获得这些国内一流公司的优先录取权。
  • 你将学习到如何将一个社区从0打造成1的过程,这段经验足以让你在毕业找工作时遥遥领先你的同学,并成为你进入国内一流公司的重要砝码;
  • 你将接触到众多HBase相关技术,在DT时代,数据的重要性无须赘述,而你获得了最先进的大数据相关知识,这对你的学业方向或者职业方向,都大有裨益。

 
主要的事项:
  • 组织线上线下会议,参加技术大会
  • 维护公众号、网站的日常维护
  • 负责收集、整理、发布技术文章

 
我们对你的要求:
  • 必须是理工科专业,计算机、通信、自动化、电子专业优先考虑;
  • 必须学习过至少一门数据库相关的课程,对数据库有基础概念;
  • 必须是未来两年有时间精力保障社区工作的学生,另外大一新生还请专心学业;我们需要的合伙人是能至少与我们共事2年的同学,还请各位同学仔细斟酌后再投递简历。
  • 对社区运营工作有极大热忱,运营工作需要细心、耐心和责任心,请先思考你的性格和兴趣是否适合做这样一份工作。
  • 运营社区是几个公司有理想的产品和研发人员组建,非盈利性质,大家在一起是做一件意义非凡的事情,但我希望这个时代,能有一位不问物质但求本心的人与我们一同前行。
  • 有过微博、今日头条、微信公众号或QQ、微信群(100人以上)运营管理经验的同学优先考虑,聪明好学者也可以忽略这条,只要你有潜质,我们愿意培养你。


有意向者,可将简历发送至 wenzheng.zwz@alibaba-inc.com,或扫描以下微信二维码,注明应聘者身份,期待你与我们一起共创HBase国内第一大社区。

新数仓系列:开源组件运营(3)

hbasesuozai 发表了文章 • 0 个评论 • 313 次浏览 • 2018-02-07 21:43 • 来自相关话题

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。

产品决定的是长期竞争力,运营决定的是短期用户体验。本文简单梳理下开源组件的运营方法。不正确的,欢迎大家给我留言多讨论。


一、运营基本概念
运营主要分为内容运营、用户运营、活动运营和产品运营。

1. 内容运营

内容运营这样一个分支,其实核心要解决的问题是:围绕着内容的生产和消费搭建起来一个良性循环,持续提升各类跟内容相关的数据,如:内容数量、内容浏览量、内容互动数、内容传播数……等等。


因而,内容运营这个模块下要关注和解决的问题可能包括了以下问题中的一个或多个——

我的内容基础属性是什么?(文字?图片?音频?)需要具备何种调性?(逗比搞笑?段子八卦?深度评论?一手资讯?文艺暖心?)内容从哪里来?(UGC?PGC?)

我的内容如何组织和展现?(专题?列表?分类导航?字体?字号?行距?段距?)

如何在已有基础上做出用户更喜欢看的内容?(内容策划?内容选题?内容如何借势热点事件和人物?)

我现有的内容如何能够更容易、更高频地被用户所消费?(内容标题怎么写?好内容如何推送给用户?推送频次如何?推送手段有哪些?EDM?站内信?Push?)

我的内容生产如何可以具备持续性?(做活动?稿费?用户激励机制?其他利益交换?)

如何更好地引导用户来与我的内容发生互动甚至传播内容?(制造话题?讨论氛围引导?传播机制设计?)

2. 用户运营

跟内容运营相似,所谓用户运营这样一个分支,其实核心要解决的问题,也是围绕着用户的新增-留存-活跃-传播以及用户之间的价值供给关系建立起来一个良性的循环,持续提升各类跟用户有关的数据,如:用户数、活跃用户数、精英用户数、用户停留时间……等。

所以,用户运营要关注的问题可能包括了以下问题中的一个或多个——

我们的用户该从哪里来?(微博?豆瓣?广告?BD合作?线下地推?人肉?现有用户传播?)如何落实?(BD?付费?渠道建设?产品机制设定?)

用户来了之后,我们如何建立和维护我们跟用户间的关系?(多互动?多要反馈?多送礼品?多帮用户解决实际问题?)

如何让愿意留在这里玩的用户更多?(分析数据?关注留存?提升留存?关注活跃?拉升活跃?用户积分体系设计?用户激励体系设计?)

当用户量慢慢多起来比如达到几百万的时候,如何增强我对整个用户生态的影响力和掌控力?(如何对用户进行分类?针对每类用户我们应该如何服务和管理?怎样让不同类型的用户之间产生价值关系?如何构建起一个良性可掌控的站内用户模型?)

用户如果出现流失怎么办?(分析流失原因?建立流失预警机制?召回?放弃?)该如何召回?(召回策略?EDM?短信?Push?)


3. 活动运营

至于活动运营,核心就是围绕着一个或一系列活动的策划、资源确认、宣传推广、效果评估等一系列流程做好全流程的项目推进、进度管理和执行落地。一个活动运营,必须事先明确活动的目标,并持续跟踪活动过程中的相关数据,做好活动效果的评估。

其实,活动是一种再常见不过的运营手段,也是一个合格的运营必须要掌握和熟练运用的一种手段。往往在我们做内容运营和用户运营的过程中,也必不可少的会涉及到很多活动。所以其实,单独把“活动运营”设为一个独立岗位的互联网公司,其实并不是特别多。


基本上,一个公司可能会专门设置出来一个“活动运营”岗的典型场景,可能仅有两种——

该公司对“活动”的定位较高,会定期通过一些中大型的活动来拉升某些核心数据或是宣传公司品牌,而活动的策划设计、执行确认等也通常比较复杂,需要专门有人来主Hold和跟进(类似支付宝集五福这样的活动,就很复杂);

该公司用户已有一定用户体量,为了做好用户的维系,需要定期策划和落地一些活动。又或该项业务本身就需要持续不断的活动来助推(好比电商网站,淘宝天猫等各种定期购物节)。


4. 产品运营

所谓产品运营,其实要做的事情,就是通过一系列各式各样的运营手段(比如活动策划、内外部资源拓展和对接、优化产品方案、内容组织等等),去拉升某个产品的特定数据,如:装机量、注册量、用户访问深度、用户访问频次、用户关系对数量、发帖量……等等。

所以,一个真正意义上的“产品运营”,其实是一个综合能力比较均衡,既熟悉各类运营手段,又熟悉产品,甚至能够自己完成一些产品方案的人。

对于一家互联网公司,会设置一个“产品运营”岗位的场景,以下两种情况是比较典型的——

一个比较成熟的产品新上了一个分支功能,在一段时间内需要一个人对接协调各种资源,干好各种活,对该功能相关产品数据负责(如新浪微博上线了一个“微群组”功能);

一个中早期的互联网公司,不需要对运营划分得那么复杂,就是需要有一个人啥都至少会点儿,啥都能干,还能把产品养活起来,所以ta就成了“产品运营”……


二、开源组件运营


开源组件的运营,实际和产品运营比较贴切;

前面系列文章比较了Cassandra和Hbase。Cassandra在国外用的相对广泛,整体活跃度要高于hbase;和hbase在国内反而要火一些。




Cassandra最近两年在大数据公司Datastax的大力培育下获得长足发展,功能和性能均大幅提升,Datastax的估值也达数亿美元。从apache cassandra首页来看,大概有超过1500个公司在使用cassandra。其中除了facebook和twitter外还一些有代表性的公司列举如下:

Instagram:inbox、newsfeed、 audit、fraud detection,12 EC2 node,1.2T,2w+ wps,1.5w+ rps;

eBay:200+TB,400+M写,100+M读,应用场景:商品详情页上的Social Signals,如Like,Want,Own,Favorites等;用户和商品的hunch taste graph;时间序列如移动通知,反作弊,soa,监控,日志服务等;

Netflix:包含288+96+60个实例的大规模集群,每秒110万的写操作,3个AWS EC2 美国东部region的zone自动复制副本,总计330万写操作/秒;

Apple:75000+ nodes, 10s of PBs,Millions ops/s, largest cluster 1000+ nodes。




从技术实现上来讲,cassandra同时具备AWS Dynamo和Google Bigtable的设计理念,同时引入了P2P技术,具备大规模可分区行存储能力,强调AP,实现了最终一致性,具备多数据中心复制支持,具备市场上最具有竞争力的可扩展性,无中心节点,一致性和时延可调,无单点故障,每个节点只有一个进程等等大数据存储管理的先进特点,并支持spark、storm、hadoop的集成。但同时,Cassandra实现复杂性高,没有相应的中文社区,文档太少,国内应用和实践太少,Datastax也未进入中国市场,因此在中国的推广会比较困难。


众多大数据开源组件里面,相对来说,搞的相对比较好的是spark,mongoDB。搞的好,通常需要一个商业组织在负责和管理,纯粹靠开源运作和个人兴趣,是比较难的。可以先看一眼mongoDB的中文社区http://mongoing.com/webinar_cn,相比我前面讲的hbase没有一个共同的社区要好不少。


开源运营通常的手段有:

1、  有一个好的社区(用于用户互动,不限于论坛,微信群,QQ群)。

2、  好的资料;用户手册(中文手册)、出版书籍、周报、日报等,帮助解决入门门槛问题。

3、  线上线下交流活动(meetup,专家讲座,summit等)。

4、  成功的用户案例。

5、  ISV(云应用市场,线下团队)

6、  最最重要的还是产品要好,要有一个广泛的适应场景,解决客户足够多的问题,持续的演进和竞争力(低成本、高性能、稳定性、易用性),出了问题及时响应解决。


现在很多云服务都是基于开源组件实现,做云服务核心核心之一就是做生态,所以相比传统的产品销售,只靠产品特性打动用户是远远不够的。

产品决定的是长期竞争力,运营决定的是短期用户体验。云服务领域,产品和运营,两手抓、两手都要硬! 查看全部
大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。

产品决定的是长期竞争力,运营决定的是短期用户体验。本文简单梳理下开源组件的运营方法。不正确的,欢迎大家给我留言多讨论。


一、运营基本概念
运营主要分为内容运营、用户运营、活动运营和产品运营。

1. 内容运营

内容运营这样一个分支,其实核心要解决的问题是:围绕着内容的生产和消费搭建起来一个良性循环,持续提升各类跟内容相关的数据,如:内容数量、内容浏览量、内容互动数、内容传播数……等等。


因而,内容运营这个模块下要关注和解决的问题可能包括了以下问题中的一个或多个——

我的内容基础属性是什么?(文字?图片?音频?)需要具备何种调性?(逗比搞笑?段子八卦?深度评论?一手资讯?文艺暖心?)内容从哪里来?(UGC?PGC?)

我的内容如何组织和展现?(专题?列表?分类导航?字体?字号?行距?段距?)

如何在已有基础上做出用户更喜欢看的内容?(内容策划?内容选题?内容如何借势热点事件和人物?)

我现有的内容如何能够更容易、更高频地被用户所消费?(内容标题怎么写?好内容如何推送给用户?推送频次如何?推送手段有哪些?EDM?站内信?Push?)

我的内容生产如何可以具备持续性?(做活动?稿费?用户激励机制?其他利益交换?)

如何更好地引导用户来与我的内容发生互动甚至传播内容?(制造话题?讨论氛围引导?传播机制设计?)

2. 用户运营

跟内容运营相似,所谓用户运营这样一个分支,其实核心要解决的问题,也是围绕着用户的新增-留存-活跃-传播以及用户之间的价值供给关系建立起来一个良性的循环,持续提升各类跟用户有关的数据,如:用户数、活跃用户数、精英用户数、用户停留时间……等。

所以,用户运营要关注的问题可能包括了以下问题中的一个或多个——

我们的用户该从哪里来?(微博?豆瓣?广告?BD合作?线下地推?人肉?现有用户传播?)如何落实?(BD?付费?渠道建设?产品机制设定?)

用户来了之后,我们如何建立和维护我们跟用户间的关系?(多互动?多要反馈?多送礼品?多帮用户解决实际问题?)

如何让愿意留在这里玩的用户更多?(分析数据?关注留存?提升留存?关注活跃?拉升活跃?用户积分体系设计?用户激励体系设计?)

当用户量慢慢多起来比如达到几百万的时候,如何增强我对整个用户生态的影响力和掌控力?(如何对用户进行分类?针对每类用户我们应该如何服务和管理?怎样让不同类型的用户之间产生价值关系?如何构建起一个良性可掌控的站内用户模型?)

用户如果出现流失怎么办?(分析流失原因?建立流失预警机制?召回?放弃?)该如何召回?(召回策略?EDM?短信?Push?)


3. 活动运营

至于活动运营,核心就是围绕着一个或一系列活动的策划、资源确认、宣传推广、效果评估等一系列流程做好全流程的项目推进、进度管理和执行落地。一个活动运营,必须事先明确活动的目标,并持续跟踪活动过程中的相关数据,做好活动效果的评估。

其实,活动是一种再常见不过的运营手段,也是一个合格的运营必须要掌握和熟练运用的一种手段。往往在我们做内容运营和用户运营的过程中,也必不可少的会涉及到很多活动。所以其实,单独把“活动运营”设为一个独立岗位的互联网公司,其实并不是特别多。


基本上,一个公司可能会专门设置出来一个“活动运营”岗的典型场景,可能仅有两种——

该公司对“活动”的定位较高,会定期通过一些中大型的活动来拉升某些核心数据或是宣传公司品牌,而活动的策划设计、执行确认等也通常比较复杂,需要专门有人来主Hold和跟进(类似支付宝集五福这样的活动,就很复杂);

该公司用户已有一定用户体量,为了做好用户的维系,需要定期策划和落地一些活动。又或该项业务本身就需要持续不断的活动来助推(好比电商网站,淘宝天猫等各种定期购物节)。


4. 产品运营

所谓产品运营,其实要做的事情,就是通过一系列各式各样的运营手段(比如活动策划、内外部资源拓展和对接、优化产品方案、内容组织等等),去拉升某个产品的特定数据,如:装机量、注册量、用户访问深度、用户访问频次、用户关系对数量、发帖量……等等。

所以,一个真正意义上的“产品运营”,其实是一个综合能力比较均衡,既熟悉各类运营手段,又熟悉产品,甚至能够自己完成一些产品方案的人。

对于一家互联网公司,会设置一个“产品运营”岗位的场景,以下两种情况是比较典型的——

一个比较成熟的产品新上了一个分支功能,在一段时间内需要一个人对接协调各种资源,干好各种活,对该功能相关产品数据负责(如新浪微博上线了一个“微群组”功能);

一个中早期的互联网公司,不需要对运营划分得那么复杂,就是需要有一个人啥都至少会点儿,啥都能干,还能把产品养活起来,所以ta就成了“产品运营”……


二、开源组件运营


开源组件的运营,实际和产品运营比较贴切;

前面系列文章比较了Cassandra和Hbase。Cassandra在国外用的相对广泛,整体活跃度要高于hbase;和hbase在国内反而要火一些。




Cassandra最近两年在大数据公司Datastax的大力培育下获得长足发展,功能和性能均大幅提升,Datastax的估值也达数亿美元。从apache cassandra首页来看,大概有超过1500个公司在使用cassandra。其中除了facebook和twitter外还一些有代表性的公司列举如下:

Instagram:inbox、newsfeed、 audit、fraud detection,12 EC2 node,1.2T,2w+ wps,1.5w+ rps;

eBay:200+TB,400+M写,100+M读,应用场景:商品详情页上的Social Signals,如Like,Want,Own,Favorites等;用户和商品的hunch taste graph;时间序列如移动通知,反作弊,soa,监控,日志服务等;

Netflix:包含288+96+60个实例的大规模集群,每秒110万的写操作,3个AWS EC2 美国东部region的zone自动复制副本,总计330万写操作/秒;

Apple:75000+ nodes, 10s of PBs,Millions ops/s, largest cluster 1000+ nodes。




从技术实现上来讲,cassandra同时具备AWS Dynamo和Google Bigtable的设计理念,同时引入了P2P技术,具备大规模可分区行存储能力,强调AP,实现了最终一致性,具备多数据中心复制支持,具备市场上最具有竞争力的可扩展性,无中心节点,一致性和时延可调,无单点故障,每个节点只有一个进程等等大数据存储管理的先进特点,并支持spark、storm、hadoop的集成。但同时,Cassandra实现复杂性高,没有相应的中文社区,文档太少,国内应用和实践太少,Datastax也未进入中国市场,因此在中国的推广会比较困难。


众多大数据开源组件里面,相对来说,搞的相对比较好的是spark,mongoDB。搞的好,通常需要一个商业组织在负责和管理,纯粹靠开源运作和个人兴趣,是比较难的。可以先看一眼mongoDB的中文社区http://mongoing.com/webinar_cn,相比我前面讲的hbase没有一个共同的社区要好不少。


开源运营通常的手段有:

1、  有一个好的社区(用于用户互动,不限于论坛,微信群,QQ群)。

2、  好的资料;用户手册(中文手册)、出版书籍、周报、日报等,帮助解决入门门槛问题。

3、  线上线下交流活动(meetup,专家讲座,summit等)。

4、  成功的用户案例。

5、  ISV(云应用市场,线下团队)

6、  最最重要的还是产品要好,要有一个广泛的适应场景,解决客户足够多的问题,持续的演进和竞争力(低成本、高性能、稳定性、易用性),出了问题及时响应解决。


现在很多云服务都是基于开源组件实现,做云服务核心核心之一就是做生态,所以相比传统的产品销售,只靠产品特性打动用户是远远不够的。

产品决定的是长期竞争力,运营决定的是短期用户体验。云服务领域,产品和运营,两手抓、两手都要硬!

新数仓系列:Hbase周边生态梳理(1)

hbasesuozai 发表了文章 • 0 个评论 • 425 次浏览 • 2018-02-07 21:41 • 来自相关话题

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。

本文简单梳理下其中一个应用比较广的HBASE的生态,可能不全,有更多的请大家留言。具体HBASE的基本原理扫描大家可以自行百度下,另外,要系统掌握HBASE,推荐看下《HBASE权威指南》。

1 Kerberos

什么是Kerberos?
Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using secret-key cryptography.

简单地说,Kerberos是一种认证机制,通过密钥系统为客户端/服务器应用程序提供强大的认证服务。

Kerberos存在的意义

在Hadoop1.0.0或者CDH3 版本之前,并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。尽管在版本0.16以后, HDFS增加了文件和目录的权限,但是并没有强认证的保障,这些权限只能对偶然的数据丢失起保护作用。恶意的用户可以轻易的伪装成其他用户来篡改权限,致使权限设置形同虚设,不能够对Hadoop集群起到安全保障。

在Hadoop1.0.0或者CDH3版本后,加入了Kerberos认证机制。使得集群中的节点就是它们所宣称的,是信赖的。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。防止了恶意的使用或篡改Hadoop集群的问题,确保了Hadoop集群的可靠安全。

Kerberos的工作原理


·       Client向KDC发送自己的身份信息,完成认证,获取TGT(ticket-granting ticket)

·       Client利用之前获得的TGT向KDC请求其他Service的Ticket,从而通过其他Service的身份鉴别

① Client将之前获得的TGT和要请求的服务信息发送给KDC

② KDC生成用于访问该服务的Session Ticket发给Client。 Session Ticket使用KDC与Service之间的密钥加密

③ Client将刚才收到的Ticket转发到Service。由于Client不知道KDC与Service之间的密钥,所以它无法篡改Ticket中的信息

④ Service 收到Ticket后利用它与KDC之间的密钥将Ticket中的信息解密出来,验证Client的身份。

2 Phoenix

Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。

Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。

put the SQL back in NoSQL

Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。


HBase的查询工具有很多,如:Hive、Tez、Impala、Spark SQL、Phoenix等。


Phoenix通过以下方式使我们可以少写代码,并且性能比我们自己写代码更好:


·       将SQL编译成原生的HBase scans。

·       确定scan关键字的最佳开始和结束

·       让scan并行执行

·       ...


3 多维查询kylin

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

Kylin相当于给HBASE提供了一个多为查询的SQL能力。


4 时序列数据库OpenTSDB

OpenTSDB ,可以认为是一个时系列数据(库),它基于HBase存储数据,充分发挥了HBase的分布式列存储特性,支持数百万每秒的读写,它的特点就是容易扩展,灵活的tag机制。

其最主要的部件就是TSD了,这是接收数据并存储到HBase处理的核心所在。而带有C(collector)标志的Server,则是数据采集源,将数据发给 TSD服务。


5 地理数据处理套件GeoMesa

GeoMesa 是由locationtech开源的一套地理大数据处理工具套件。其可在分布式计算系统上进行大规模的地理空间查询和分析。使用GeoMesa开源帮助用户管理、使用来自于物联网、社交媒体、手机应用的海量的时空(spatio-temporal)数据。

GeoMesa支持将海量的时空数据存储到Accumulo,HBase,Google Bigtable和Cassandra数据库中,并提供高效的索引来读取、查询这些数据。并支持通过指定空间条件(距离和范围)来快速查询。另外GeoMesa还基于Apache Kafka提供了时空数据的近实时流处理功能。

通过和GIS Server(GeoServer)的整合, GeoMesa 提供了通过标准OGC接口(WMS/WFS)访问数据的能力,通过这些接口,用户可以方便对GeoMesa处理的数据进行展示和分析,比如查询、直方图、时间序列分析等。


为什么选择GeoMesa

能够存储和处理海量时空数据

支持实时性强、需要快速读写的数据

支持spark分析

支持水平扩展

通过GeoServer提供地图服务,并支持Common Query Language (CQL)

项目地址

http://www.geomesa.org/


授权

GeoMesa使用Apache License Version 2.0协议。

http://apache.org/licenses/LICENSE-2.0.html


6 图数据库JanusGraph

Titan在停止更新了很长一段时间后,fork出了JanusGraph继续开源发展。JanusGraph是一个图形数据库引擎。JanusGraph本身专注于紧凑的图形序列化、丰富的图形数据建模和高效的查询执行。此外,JanusGraph利用Hadoop进行图形分析和批处理图处理。JanusGraph实现了健壮的模块化接口,用于数据持久性、数据索引和客户端访问。JanusGraph的模块化体系结构允许它与广泛的存储、索引和客户端技术进行互操作;它还简化了扩展JanusGraph以支持新用户的过程。

 在JanusGraph和磁盘之间,有一个或多个存储和索引适配器。JanusGraph以以下适配器为标准,但是JanusGraph的模块化体系结构支持第三方适配器

JanusGraph 体系结构

1、JanusGraph的应用分为批处理(OLAP)和流式计算(OLTP) 
2、批处理(OLAP),常用在大数据平台使用Spark、Giraph、Hadoop工具使用 
3、流式计算(OLTP),使用TinkerPop中的Traversal(遍历)工具使用 
4、数据可以存储到Cassandra、Hbase、BerkeleyDB中 
5、外部查询索引存储到ElasticSearch、Solr、Lucene中 


写在最后:本文主要简单总结下Hbase周边配合生态,提供SQL接口,多维查询能力,以及用于车联网,时序,地理数据处理等。后面持续写写新数仓相关文章,以飨读者。 查看全部
大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。

本文简单梳理下其中一个应用比较广的HBASE的生态,可能不全,有更多的请大家留言。具体HBASE的基本原理扫描大家可以自行百度下,另外,要系统掌握HBASE,推荐看下《HBASE权威指南》。

1 Kerberos

什么是Kerberos?
Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using secret-key cryptography.

简单地说,Kerberos是一种认证机制,通过密钥系统为客户端/服务器应用程序提供强大的认证服务。

Kerberos存在的意义

在Hadoop1.0.0或者CDH3 版本之前,并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。尽管在版本0.16以后, HDFS增加了文件和目录的权限,但是并没有强认证的保障,这些权限只能对偶然的数据丢失起保护作用。恶意的用户可以轻易的伪装成其他用户来篡改权限,致使权限设置形同虚设,不能够对Hadoop集群起到安全保障。

在Hadoop1.0.0或者CDH3版本后,加入了Kerberos认证机制。使得集群中的节点就是它们所宣称的,是信赖的。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证。只有被认证过节点才能正常使用。企图冒充的节点由于没有事先得到的密钥信息,无法与集群内部的节点通信。防止了恶意的使用或篡改Hadoop集群的问题,确保了Hadoop集群的可靠安全。

Kerberos的工作原理


·       Client向KDC发送自己的身份信息,完成认证,获取TGT(ticket-granting ticket)

·       Client利用之前获得的TGT向KDC请求其他Service的Ticket,从而通过其他Service的身份鉴别

① Client将之前获得的TGT和要请求的服务信息发送给KDC

② KDC生成用于访问该服务的Session Ticket发给Client。 Session Ticket使用KDC与Service之间的密钥加密

③ Client将刚才收到的Ticket转发到Service。由于Client不知道KDC与Service之间的密钥,所以它无法篡改Ticket中的信息

④ Service 收到Ticket后利用它与KDC之间的密钥将Ticket中的信息解密出来,验证Client的身份。

2 Phoenix

Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。

Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。

put the SQL back in NoSQL

Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。


HBase的查询工具有很多,如:Hive、Tez、Impala、Spark SQL、Phoenix等。


Phoenix通过以下方式使我们可以少写代码,并且性能比我们自己写代码更好:


·       将SQL编译成原生的HBase scans。

·       确定scan关键字的最佳开始和结束

·       让scan并行执行

·       ...


3 多维查询kylin

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

Kylin相当于给HBASE提供了一个多为查询的SQL能力。


4 时序列数据库OpenTSDB

OpenTSDB ,可以认为是一个时系列数据(库),它基于HBase存储数据,充分发挥了HBase的分布式列存储特性,支持数百万每秒的读写,它的特点就是容易扩展,灵活的tag机制。

其最主要的部件就是TSD了,这是接收数据并存储到HBase处理的核心所在。而带有C(collector)标志的Server,则是数据采集源,将数据发给 TSD服务。


5 地理数据处理套件GeoMesa

GeoMesa 是由locationtech开源的一套地理大数据处理工具套件。其可在分布式计算系统上进行大规模的地理空间查询和分析。使用GeoMesa开源帮助用户管理、使用来自于物联网、社交媒体、手机应用的海量的时空(spatio-temporal)数据。

GeoMesa支持将海量的时空数据存储到Accumulo,HBase,Google Bigtable和Cassandra数据库中,并提供高效的索引来读取、查询这些数据。并支持通过指定空间条件(距离和范围)来快速查询。另外GeoMesa还基于Apache Kafka提供了时空数据的近实时流处理功能。

通过和GIS Server(GeoServer)的整合, GeoMesa 提供了通过标准OGC接口(WMS/WFS)访问数据的能力,通过这些接口,用户可以方便对GeoMesa处理的数据进行展示和分析,比如查询、直方图、时间序列分析等。


为什么选择GeoMesa

能够存储和处理海量时空数据

支持实时性强、需要快速读写的数据

支持spark分析

支持水平扩展

通过GeoServer提供地图服务,并支持Common Query Language (CQL)

项目地址

http://www.geomesa.org/


授权

GeoMesa使用Apache License Version 2.0协议。

http://apache.org/licenses/LICENSE-2.0.html


6 图数据库JanusGraph

Titan在停止更新了很长一段时间后,fork出了JanusGraph继续开源发展。JanusGraph是一个图形数据库引擎。JanusGraph本身专注于紧凑的图形序列化、丰富的图形数据建模和高效的查询执行。此外,JanusGraph利用Hadoop进行图形分析和批处理图处理。JanusGraph实现了健壮的模块化接口,用于数据持久性、数据索引和客户端访问。JanusGraph的模块化体系结构允许它与广泛的存储、索引和客户端技术进行互操作;它还简化了扩展JanusGraph以支持新用户的过程。

 在JanusGraph和磁盘之间,有一个或多个存储和索引适配器。JanusGraph以以下适配器为标准,但是JanusGraph的模块化体系结构支持第三方适配器

JanusGraph 体系结构

1、JanusGraph的应用分为批处理(OLAP)和流式计算(OLTP) 
2、批处理(OLAP),常用在大数据平台使用Spark、Giraph、Hadoop工具使用 
3、流式计算(OLTP),使用TinkerPop中的Traversal(遍历)工具使用 
4、数据可以存储到Cassandra、Hbase、BerkeleyDB中 
5、外部查询索引存储到ElasticSearch、Solr、Lucene中 


写在最后:本文主要简单总结下Hbase周边配合生态,提供SQL接口,多维查询能力,以及用于车联网,时序,地理数据处理等。后面持续写写新数仓相关文章,以飨读者。

新数仓系列:Hbase国内开发者生存现状(2)

hbasesuozai 发表了文章 • 0 个评论 • 365 次浏览 • 2018-02-07 21:40 • 来自相关话题

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。


本文简单梳理下其中一个应用比较广的HBASE的国内开发者现状,可能不全,有更多信息或者纠正的,请给我留言。


一、  社区


1      国内commiter现状:

目前国内一共10个committer。4个在小米,4个在阿里,一个是小米前员工离职创业去了,一个在英特尔。小米历史上的5个committer,四个是在小米当选的,一个是在豌豆荚当committer后过来的 @张铎还成为国内第一个HBase PMC member。

阿里的话有国内第一个committer,这四个committer分别属于三个大部门。


消息来源:知乎上杨肉(HBase Committer)的回答,这个兄弟又从小米跳槽到一个AI创业公司了。

https://www.zhihu.com/question/27598510



2      和国外的互动
随着PMC、Committer的增多,也逐渐和社区互动起来,2017第一次举行HBaseCon Asia,华为主办的。

http://developer.51cto.com/art/201708/547605.htm


3      技术社区:
好像没有看到一个影响力比较大的统一技术社区,如果有更多信息的同学告诉我?

·  hbase-help:http://hbase-help.com/

·  csdn HBase资料库:http://lib.csdn.net/hbase/node/734



二、商业应用
 
4      各大公司的实践

阿里Hbase大牛封神整理的,具体链接: https://yq.aliyun.com/articles ... H0StL

基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

·         阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用

·         阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进

·         日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。

·         滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用

·         HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等

·         中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践

·         HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用

·         Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。

·         10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用

·         G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求


三 、云生态


5 国内典型云服务厂商

1)阿里云  云数据库 HBase 版

云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。


https://www.aliyun.com/product ... dRXId


2)华为云 表格存储服务 CloudTable表格存储服务(CloudTable Service)是华为云基于Apache HBase提供的分布式、可伸缩、全托管的KeyValue数据存储服务,它提供了高性能的随机读写能力,适用于海量结构化数据、半结构化数据以及时序数据的存储和查询应用

http://www.huaweicloud.com/product/cloudtable.html


3)腾讯云 列式数据库HBase

列式数据库HBase(Cloud HBase Service)是腾讯云基于全球广受欢迎的HBase打造的高性能、可伸缩、面向列的分布式存储系统,100%完全兼容HBase协议, 适用于写吞吐量大、海量数据存储以及分布式计算的场景,为您提供稳定丰富的集群管理,弹性可扩展的系统服务。https://cloud.tencent.com/product/HBase


6 国外典型云服务厂商

这项技术发源美国,所以AWS/Azure/Google技术实力较强。他们实现的都比开源猛!

1)AWS  Amazon DynamoDB

适用于任何规模的快速灵活的 NoSQL 数据库服务。

https://aws.amazon.com/cn/dynamodb/?nc2=h_m1


2)Azure 表存储

适用于使用大量半结构化数据集进行快速开发的 NoSQL 键-值存储

https://azure.microsoft.com/zh ... bles/

3)Google CLOUD BigTable&datastore

BigTableHBASE的始祖,开源Hbase就是抄这个。

一种用于处理大规模分析和运营工作负载的高性能 NoSQL 数据库服务


https://cloud.google.com/bigtable/


Google还在bigdata基础上提供了一个更强事务和SQL能力的datastore

https://cloud.google.com/datastore/


本文主要梳理下Hbase开发者现状,国内用户主要集中在互联网厂商,用户生态比postgresql/Mysql差一些。2016年是IoT爆发的元年,随着Hbase尤其适合的IoT应用的发展,Hbase有很大发展潜力。 查看全部
大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。


本文简单梳理下其中一个应用比较广的HBASE的国内开发者现状,可能不全,有更多信息或者纠正的,请给我留言。


一、  社区


1      国内commiter现状:

目前国内一共10个committer。4个在小米,4个在阿里,一个是小米前员工离职创业去了,一个在英特尔。小米历史上的5个committer,四个是在小米当选的,一个是在豌豆荚当committer后过来的 @张铎还成为国内第一个HBase PMC member。

阿里的话有国内第一个committer,这四个committer分别属于三个大部门。


消息来源:知乎上杨肉(HBase Committer)的回答,这个兄弟又从小米跳槽到一个AI创业公司了。

https://www.zhihu.com/question/27598510



2      和国外的互动
随着PMC、Committer的增多,也逐渐和社区互动起来,2017第一次举行HBaseCon Asia,华为主办的。

http://developer.51cto.com/art/201708/547605.htm


3      技术社区:
好像没有看到一个影响力比较大的统一技术社区,如果有更多信息的同学告诉我?

·  hbase-help:http://hbase-help.com/

·  csdn HBase资料库:http://lib.csdn.net/hbase/node/734



二、商业应用
 
4      各大公司的实践

阿里Hbase大牛封神整理的,具体链接: https://yq.aliyun.com/articles ... H0StL

基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

·         阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用

·         阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进

·         日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。

·         滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用

·         HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等

·         中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践

·         HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用

·         Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。

·         10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用

·         G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求


三 、云生态


5 国内典型云服务厂商

1)阿里云  云数据库 HBase 版

云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。


https://www.aliyun.com/product ... dRXId


2)华为云 表格存储服务 CloudTable表格存储服务(CloudTable Service)是华为云基于Apache HBase提供的分布式、可伸缩、全托管的KeyValue数据存储服务,它提供了高性能的随机读写能力,适用于海量结构化数据、半结构化数据以及时序数据的存储和查询应用

http://www.huaweicloud.com/product/cloudtable.html


3)腾讯云 列式数据库HBase

列式数据库HBase(Cloud HBase Service)是腾讯云基于全球广受欢迎的HBase打造的高性能、可伸缩、面向列的分布式存储系统,100%完全兼容HBase协议, 适用于写吞吐量大、海量数据存储以及分布式计算的场景,为您提供稳定丰富的集群管理,弹性可扩展的系统服务。https://cloud.tencent.com/product/HBase


6 国外典型云服务厂商

这项技术发源美国,所以AWS/Azure/Google技术实力较强。他们实现的都比开源猛!

1)AWS  Amazon DynamoDB

适用于任何规模的快速灵活的 NoSQL 数据库服务。

https://aws.amazon.com/cn/dynamodb/?nc2=h_m1


2)Azure 表存储

适用于使用大量半结构化数据集进行快速开发的 NoSQL 键-值存储

https://azure.microsoft.com/zh ... bles/

3)Google CLOUD BigTable&datastore

BigTableHBASE的始祖,开源Hbase就是抄这个。

一种用于处理大规模分析和运营工作负载的高性能 NoSQL 数据库服务


https://cloud.google.com/bigtable/


Google还在bigdata基础上提供了一个更强事务和SQL能力的datastore

https://cloud.google.com/datastore/


本文主要梳理下Hbase开发者现状,国内用户主要集中在互联网厂商,用户生态比postgresql/Mysql差一些。2016年是IoT爆发的元年,随着Hbase尤其适合的IoT应用的发展,Hbase有很大发展潜力。

学术界关于HBase在物联网/车联网/互联网/金融/高能物理等八大场景的理论研究

hbasehbase 发表了文章 • 0 个评论 • 405 次浏览 • 2018-02-07 13:43 • 来自相关话题

引言

 HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。这得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊,便于广大读者阅读,特别选择了中文资料),很多都在工业界使用了。 由于涉及到版权,笔者提供链接,不提供资源下载,请大家见谅,可以自行搜索或者下载。感谢各位学者辛苦的研究,也论证了hbase技术在大规模存储的优势,在不同领域的应用场景。

HBase最主要的特性 
  HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量,跟Spark、HadoopMR等分析系统结合
行业

物联网行业 & 车联网
基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。基于 HBase的分布式空间数据库技术:针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度基于HBase的大规模无线传感网络数据存储系统: 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率基于HBase的全天候全域出租车聚集实时监测方法:本发明为基于HBase的全天候全域出租车聚集实时监测方法,公开了一种车辆聚集监测方法。本发明首先将监测区域划分成网格,使用历史GPS数据计算出每个网格出租车数的最大值。然后,实时扫描GPS数据,按时刻截取一段时间的数据进行分析,循环扫描每一个网格,如果某个网格连续n个时刻都大于历史最大值,则观察这n个时刻的车数是否呈递增趋势,如果是则继续计算本时刻是否有一定数量的车和上一时刻相同,成立则说明该网格发生车辆聚集,否则扫描下一个网格。本发明利用出租车GPS数据实时监测每个区域,通过海量的历史出租车GPS和实时数据、HBase数据库、Spark计算框架、数据挖掘方法和最小二乘法构建出了一套快速、准确而有效的实时聚集监测方法基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.
交通
面向海量交通数据的HBase时空索引:针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引.首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合:然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法.通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景基于HBase的交通数据区域查询方法:随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加基于HBase的交通流数据实时存储系统:交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.基于HBase的交通卡口数据存储和查询系统研发:该系统采用分布式架构,前端摄像头传感器以Http协议方式将交通卡口数据发送给Flume分布式采集系统,采集系统对多源异构数据进行分类、聚合规范化整理,然后将不同类型的卡口数据传入到Kafka分布式消息队列中进行数据划分,数据划分中重写了Kafka原有的Partition类,从而更好的实现了卡口数据读取的实时性。Storm分布式实时计算系统从消息队列中获取卡口数据并且完成存储过程,最终将卡口数据写入到HBase集群服务器中。利用Phoenix-client作为HBase之上的Sql层,实现对HBase数据库查询。在保证系统高可靠、高可用的情况下,实现了卡口系统数据的快速写入和读取。
互联网
针对微博信息分析的HBase存储结构设计 :随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。 基于 HBase 的互联网电视运营分析架构和模型设计:随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。新疆建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。
电力
 基于HBase的配用电海量时序数据存取研究:针对配用电海量时间序列数据,目前南方电网普遍采用关系型数据库进行存储,在技术上使用分库、分区、分表、联合索引等方式进行优化,灵活性、可扩展性、存储量等方面都存在问题.为满足配用电海量时间序列数据的存储要求,分析了关系型数据库优缺点,提出采用分布式数据库HBase构建电力系统数据中心以提高系统性能,并重点分析了HBase数据存储机制及实现方法,最后通过仿真实验进行对比.实验结果表明,基于HBase的配用电海量时间序列数据存取技术在存储及查询操作上具有较大的性能优势. HBase 在智能电网异构数据同步中的应用:未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。

 金融
 基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。

医疗
 基于HBase的海量DICOM医学影像存储系统的设计与研究:文章结合传统医学影像存储的不足和云计算的特点,提出了基于HBase的医学影像存储方案,结果表明基于HBase的DICOM影像数据库能有效解决传统PB级医学影像存储及医疗信息资源共享问题.  

航空
 基于HBase的民用航空发动机大数据管理系统: 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.
小文件存储(图片视频等)
 一种基于HBase的海量图片存储技术针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.   基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。
高能物理
 高能物理大数据挑战与海量事例特征索引技术研究:一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、IO瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.

地理
 基于HBase的海量地形数据存储:随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战.针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法-基于HBase的矢量空间数据分布式存储研究:分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  

写在最后 
更多关于Hbase学术的论文参考:HBase应用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相关的论文,比如 hbase 传感器
  查看全部
引言

 HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。这得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊,便于广大读者阅读,特别选择了中文资料),很多都在工业界使用了。 由于涉及到版权,笔者提供链接,不提供资源下载,请大家见谅,可以自行搜索或者下载。感谢各位学者辛苦的研究,也论证了hbase技术在大规模存储的优势,在不同领域的应用场景。

HBase最主要的特性 
  1.   HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。
  2. HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。
  3. HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量,跟Spark、HadoopMR等分析系统结合

行业

物联网行业 & 车联网
  • 基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。
  • 基于 HBase的分布式空间数据库技术:针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度
  • 基于HBase的大规模无线传感网络数据存储系统: 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率
  • 基于HBase的全天候全域出租车聚集实时监测方法:本发明为基于HBase的全天候全域出租车聚集实时监测方法,公开了一种车辆聚集监测方法。本发明首先将监测区域划分成网格,使用历史GPS数据计算出每个网格出租车数的最大值。然后,实时扫描GPS数据,按时刻截取一段时间的数据进行分析,循环扫描每一个网格,如果某个网格连续n个时刻都大于历史最大值,则观察这n个时刻的车数是否呈递增趋势,如果是则继续计算本时刻是否有一定数量的车和上一时刻相同,成立则说明该网格发生车辆聚集,否则扫描下一个网格。本发明利用出租车GPS数据实时监测每个区域,通过海量的历史出租车GPS和实时数据、HBase数据库、Spark计算框架、数据挖掘方法和最小二乘法构建出了一套快速、准确而有效的实时聚集监测方法
  • 基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.

交通
  • 面向海量交通数据的HBase时空索引:针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引.首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合:然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法.通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景
  • 基于HBase的交通数据区域查询方法:随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加
  • 基于HBase的交通流数据实时存储系统:交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.
  • 基于HBase的交通卡口数据存储和查询系统研发:该系统采用分布式架构,前端摄像头传感器以Http协议方式将交通卡口数据发送给Flume分布式采集系统,采集系统对多源异构数据进行分类、聚合规范化整理,然后将不同类型的卡口数据传入到Kafka分布式消息队列中进行数据划分,数据划分中重写了Kafka原有的Partition类,从而更好的实现了卡口数据读取的实时性。Storm分布式实时计算系统从消息队列中获取卡口数据并且完成存储过程,最终将卡口数据写入到HBase集群服务器中。利用Phoenix-client作为HBase之上的Sql层,实现对HBase数据库查询。在保证系统高可靠、高可用的情况下,实现了卡口系统数据的快速写入和读取。

互联网
  • 针对微博信息分析的HBase存储结构设计 :随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。
  •  基于 HBase 的互联网电视运营分析架构和模型设计:随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。新疆建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。

电力
  •  基于HBase的配用电海量时序数据存取研究:针对配用电海量时间序列数据,目前南方电网普遍采用关系型数据库进行存储,在技术上使用分库、分区、分表、联合索引等方式进行优化,灵活性、可扩展性、存储量等方面都存在问题.为满足配用电海量时间序列数据的存储要求,分析了关系型数据库优缺点,提出采用分布式数据库HBase构建电力系统数据中心以提高系统性能,并重点分析了HBase数据存储机制及实现方法,最后通过仿真实验进行对比.实验结果表明,基于HBase的配用电海量时间序列数据存取技术在存储及查询操作上具有较大的性能优势.
  •  HBase 在智能电网异构数据同步中的应用:未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。


 金融
  •  基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。


医疗


航空
  •  基于HBase的民用航空发动机大数据管理系统: 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.

小文件存储(图片视频等)
  •  一种基于HBase的海量图片存储技术针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.  
  •  基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。

高能物理
  •  高能物理大数据挑战与海量事例特征索引技术研究:一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、IO瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.


地理
  •  基于HBase的海量地形数据存储:随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战.针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法
  • -基于HBase的矢量空间数据分布式存储研究:分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  


写在最后 
更多关于Hbase学术的论文参考:HBase应用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相关的论文,比如 hbase 传感器
 

HBase全网最佳学习资料汇总

hbasehbase 发表了文章 • 0 个评论 • 1329 次浏览 • 2018-02-05 21:55 • 来自相关话题

1、前言
 HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴、京东、小米都有数千台的HBase集群,中国电信的话单、中国人寿的保单都是存储在HBase中。注意大公司有数十个数百个HBase集群,此点跟Hadoop集群很不相同。另外,数据需求,很多公司是mysql+hbase+hadoop(spark),满足关系型数据库需求,满足大规模结构化存储需求,满足复杂分析的需求。如此流行的原因来源于很多方面,如:
  - 开源繁荣的生态:1. 任何公司倒闭了,开源的HBase还在 2.几乎每家公司都可以去下载源码,改进她,再反馈给社区,就如阿里已经反馈了数百个patch了。加入的人越多,引擎就越好
  - 跟HADOOP深度结合:本就同根同源,在数据存储在HBase后,如果想复杂分析,则非常方便
  - 高扩展、高容量、高性能、低成本、低延迟、稀疏宽表、动态列、TTL、多版本等最为关键,起源google论文,发扬社区及广大互联网公司,设计之初就是为存储互联网,后经过多年的改进升级,如今已经是结构化存储的事实标准

以下资料会一直更新中......请大家关注!

2、书籍
最好买纸质书籍,集中时间看下
HBase权威指南(HBase: The Definitive Guide):理论多一些HBase实战:实践多一些
3、总结性
HBase2.0: HBase2.0 :预计今年会发布,hbase2.0是革命性的版本HBase Phoenix:Apache Phoenix与HBase:HBase之上SQL的过去,现在和未来 社区hbase博客:https://blogs.apache.org/hbase/
4、方法论
学术界关于HBase应用场景(物联网/车联网/交通/电力等)研究大全: HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等。得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊),这些很多都在工业界使用了。HBase使用场景和成功案例  存储互联网的初心不变 一种基于物联网大数据的设备信息采集系统及方法:怎么使用HBase、sparkStreaming、redis处理物联网大数据一种基于HBase的智能电网时序大数据处理方方案:一种基于HBase的智能电网时序大数据处理方方案HBase配合GeoHash算法支持经纬度:此文主要讲GeoHash算法的基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。基于HBase的金融时序数据存储系统:金融类时序数据的存储方案,写的还是结合实际场景的。
5、各大公司的实践
基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:
阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用HBase上搭建广告实时数据处理平台]:主要分享 1. 如何通过HBase实现数据流实时关联 2. 如何保证重要的计费数据不重不丢 3. HBase实战经验,优化负载均衡、读写缓存、批量读写等性能问题HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求
6、结尾
  这些资料是笔者整理,以供有大规模结构化需求的用户及HBase爱好者学习交流,以使用HBase更好的解决实际的问题。欢迎传播,原文路径:http://www.hbase.group/hbase/?/article/1

7、声明
以上资料来自互联网,如果侵权,请联系我删除 查看全部
1、前言
 HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴、京东、小米都有数千台的HBase集群,中国电信的话单、中国人寿的保单都是存储在HBase中。注意大公司有数十个数百个HBase集群,此点跟Hadoop集群很不相同。另外,数据需求,很多公司是mysql+hbase+hadoop(spark),满足关系型数据库需求,满足大规模结构化存储需求,满足复杂分析的需求。如此流行的原因来源于很多方面,如:
  - 开源繁荣的生态:1. 任何公司倒闭了,开源的HBase还在 2.几乎每家公司都可以去下载源码,改进她,再反馈给社区,就如阿里已经反馈了数百个patch了。加入的人越多,引擎就越好
  - 跟HADOOP深度结合:本就同根同源,在数据存储在HBase后,如果想复杂分析,则非常方便
  - 高扩展、高容量、高性能、低成本、低延迟、稀疏宽表、动态列、TTL、多版本等最为关键,起源google论文,发扬社区及广大互联网公司,设计之初就是为存储互联网,后经过多年的改进升级,如今已经是结构化存储的事实标准

以下资料会一直更新中......请大家关注!

2、书籍
最好买纸质书籍,集中时间看下
  • HBase权威指南(HBase: The Definitive Guide):理论多一些
  • HBase实战:实践多一些

3、总结性

4、方法论

5、各大公司的实践
基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

6、结尾
  这些资料是笔者整理,以供有大规模结构化需求的用户及HBase爱好者学习交流,以使用HBase更好的解决实际的问题。欢迎传播,原文路径:http://www.hbase.group/hbase/?/article/1

7、声明
以上资料来自互联网,如果侵权,请联系我删除

OLAP on HBase的可选方案有哪些?

hbasefengshen 回复了问题 • 2 人关注 • 1 个回复 • 3273 次浏览 • 2018-02-05 20:56 • 来自相关话题


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群