新数仓系列:Hbase国内开发者生存现状(2)

hbasesuozai 发表了文章 • 0 个评论 • 503 次浏览 • 2018-02-07 21:40 • 来自相关话题

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。


本文简单梳理下其中一个应用比较广的HBASE的国内开发者现状,可能不全,有更多信息或者纠正的,请给我留言。


一、  社区


1      国内commiter现状:

目前国内一共10个committer。4个在小米,4个在阿里,一个是小米前员工离职创业去了,一个在英特尔。小米历史上的5个committer,四个是在小米当选的,一个是在豌豆荚当committer后过来的 @张铎还成为国内第一个HBase PMC member。

阿里的话有国内第一个committer,这四个committer分别属于三个大部门。


消息来源:知乎上杨肉(HBase Committer)的回答,这个兄弟又从小米跳槽到一个AI创业公司了。

https://www.zhihu.com/question/27598510



2      和国外的互动
随着PMC、Committer的增多,也逐渐和社区互动起来,2017第一次举行HBaseCon Asia,华为主办的。

http://developer.51cto.com/art/201708/547605.htm


3      技术社区:
好像没有看到一个影响力比较大的统一技术社区,如果有更多信息的同学告诉我?

·  hbase-help:http://hbase-help.com/

·  csdn HBase资料库:http://lib.csdn.net/hbase/node/734



二、商业应用
 
4      各大公司的实践

阿里Hbase大牛封神整理的,具体链接: https://yq.aliyun.com/articles ... H0StL

基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

·         阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用

·         阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进

·         日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。

·         滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用

·         HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等

·         中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践

·         HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用

·         Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。

·         10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用

·         G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求


三 、云生态


5 国内典型云服务厂商

1)阿里云  云数据库 HBase 版

云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。


https://www.aliyun.com/product ... dRXId


2)华为云 表格存储服务 CloudTable表格存储服务(CloudTable Service)是华为云基于Apache HBase提供的分布式、可伸缩、全托管的KeyValue数据存储服务,它提供了高性能的随机读写能力,适用于海量结构化数据、半结构化数据以及时序数据的存储和查询应用

http://www.huaweicloud.com/product/cloudtable.html


3)腾讯云 列式数据库HBase

列式数据库HBase(Cloud HBase Service)是腾讯云基于全球广受欢迎的HBase打造的高性能、可伸缩、面向列的分布式存储系统,100%完全兼容HBase协议, 适用于写吞吐量大、海量数据存储以及分布式计算的场景,为您提供稳定丰富的集群管理,弹性可扩展的系统服务。https://cloud.tencent.com/product/HBase


6 国外典型云服务厂商

这项技术发源美国,所以AWS/Azure/Google技术实力较强。他们实现的都比开源猛!

1)AWS  Amazon DynamoDB

适用于任何规模的快速灵活的 NoSQL 数据库服务。

https://aws.amazon.com/cn/dynamodb/?nc2=h_m1


2)Azure 表存储

适用于使用大量半结构化数据集进行快速开发的 NoSQL 键-值存储

https://azure.microsoft.com/zh ... bles/

3)Google CLOUD BigTable&datastore

BigTableHBASE的始祖,开源Hbase就是抄这个。

一种用于处理大规模分析和运营工作负载的高性能 NoSQL 数据库服务


https://cloud.google.com/bigtable/


Google还在bigdata基础上提供了一个更强事务和SQL能力的datastore

https://cloud.google.com/datastore/


本文主要梳理下Hbase开发者现状,国内用户主要集中在互联网厂商,用户生态比postgresql/Mysql差一些。2016年是IoT爆发的元年,随着Hbase尤其适合的IoT应用的发展,Hbase有很大发展潜力。 查看全部
大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。

概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”,我准备写一系列相关的文章,有没有同学愿意一起来的?请联系我。


本文简单梳理下其中一个应用比较广的HBASE的国内开发者现状,可能不全,有更多信息或者纠正的,请给我留言。


一、  社区


1      国内commiter现状:

目前国内一共10个committer。4个在小米,4个在阿里,一个是小米前员工离职创业去了,一个在英特尔。小米历史上的5个committer,四个是在小米当选的,一个是在豌豆荚当committer后过来的 @张铎还成为国内第一个HBase PMC member。

阿里的话有国内第一个committer,这四个committer分别属于三个大部门。


消息来源:知乎上杨肉(HBase Committer)的回答,这个兄弟又从小米跳槽到一个AI创业公司了。

https://www.zhihu.com/question/27598510



2      和国外的互动
随着PMC、Committer的增多,也逐渐和社区互动起来,2017第一次举行HBaseCon Asia,华为主办的。

http://developer.51cto.com/art/201708/547605.htm


3      技术社区:
好像没有看到一个影响力比较大的统一技术社区,如果有更多信息的同学告诉我?

·  hbase-help:http://hbase-help.com/

·  csdn HBase资料库:http://lib.csdn.net/hbase/node/734



二、商业应用
 
4      各大公司的实践

阿里Hbase大牛封神整理的,具体链接: https://yq.aliyun.com/articles ... H0StL

基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

·         阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用

·         阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进

·         日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。

·         滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用

·         HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等

·         中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践

·         HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用

·         Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。

·         10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用

·         G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求


三 、云生态


5 国内典型云服务厂商

1)阿里云  云数据库 HBase 版

云数据库 HBase 版(ApsaraDB for HBase)是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。


https://www.aliyun.com/product ... dRXId


2)华为云 表格存储服务 CloudTable表格存储服务(CloudTable Service)是华为云基于Apache HBase提供的分布式、可伸缩、全托管的KeyValue数据存储服务,它提供了高性能的随机读写能力,适用于海量结构化数据、半结构化数据以及时序数据的存储和查询应用

http://www.huaweicloud.com/product/cloudtable.html


3)腾讯云 列式数据库HBase

列式数据库HBase(Cloud HBase Service)是腾讯云基于全球广受欢迎的HBase打造的高性能、可伸缩、面向列的分布式存储系统,100%完全兼容HBase协议, 适用于写吞吐量大、海量数据存储以及分布式计算的场景,为您提供稳定丰富的集群管理,弹性可扩展的系统服务。https://cloud.tencent.com/product/HBase


6 国外典型云服务厂商

这项技术发源美国,所以AWS/Azure/Google技术实力较强。他们实现的都比开源猛!

1)AWS  Amazon DynamoDB

适用于任何规模的快速灵活的 NoSQL 数据库服务。

https://aws.amazon.com/cn/dynamodb/?nc2=h_m1


2)Azure 表存储

适用于使用大量半结构化数据集进行快速开发的 NoSQL 键-值存储

https://azure.microsoft.com/zh ... bles/

3)Google CLOUD BigTable&datastore

BigTableHBASE的始祖,开源Hbase就是抄这个。

一种用于处理大规模分析和运营工作负载的高性能 NoSQL 数据库服务


https://cloud.google.com/bigtable/


Google还在bigdata基础上提供了一个更强事务和SQL能力的datastore

https://cloud.google.com/datastore/


本文主要梳理下Hbase开发者现状,国内用户主要集中在互联网厂商,用户生态比postgresql/Mysql差一些。2016年是IoT爆发的元年,随着Hbase尤其适合的IoT应用的发展,Hbase有很大发展潜力。

学术界关于HBase在物联网/车联网/互联网/金融/高能物理等八大场景的理论研究

hbasehbase 发表了文章 • 0 个评论 • 512 次浏览 • 2018-02-07 13:43 • 来自相关话题

引言

 HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。这得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊,便于广大读者阅读,特别选择了中文资料),很多都在工业界使用了。 由于涉及到版权,笔者提供链接,不提供资源下载,请大家见谅,可以自行搜索或者下载。感谢各位学者辛苦的研究,也论证了hbase技术在大规模存储的优势,在不同领域的应用场景。

HBase最主要的特性 
  HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量,跟Spark、HadoopMR等分析系统结合
行业

物联网行业 & 车联网
基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。基于 HBase的分布式空间数据库技术:针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度基于HBase的大规模无线传感网络数据存储系统: 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率基于HBase的全天候全域出租车聚集实时监测方法:本发明为基于HBase的全天候全域出租车聚集实时监测方法,公开了一种车辆聚集监测方法。本发明首先将监测区域划分成网格,使用历史GPS数据计算出每个网格出租车数的最大值。然后,实时扫描GPS数据,按时刻截取一段时间的数据进行分析,循环扫描每一个网格,如果某个网格连续n个时刻都大于历史最大值,则观察这n个时刻的车数是否呈递增趋势,如果是则继续计算本时刻是否有一定数量的车和上一时刻相同,成立则说明该网格发生车辆聚集,否则扫描下一个网格。本发明利用出租车GPS数据实时监测每个区域,通过海量的历史出租车GPS和实时数据、HBase数据库、Spark计算框架、数据挖掘方法和最小二乘法构建出了一套快速、准确而有效的实时聚集监测方法基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.
交通
面向海量交通数据的HBase时空索引:针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引.首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合:然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法.通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景基于HBase的交通数据区域查询方法:随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加基于HBase的交通流数据实时存储系统:交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.基于HBase的交通卡口数据存储和查询系统研发:该系统采用分布式架构,前端摄像头传感器以Http协议方式将交通卡口数据发送给Flume分布式采集系统,采集系统对多源异构数据进行分类、聚合规范化整理,然后将不同类型的卡口数据传入到Kafka分布式消息队列中进行数据划分,数据划分中重写了Kafka原有的Partition类,从而更好的实现了卡口数据读取的实时性。Storm分布式实时计算系统从消息队列中获取卡口数据并且完成存储过程,最终将卡口数据写入到HBase集群服务器中。利用Phoenix-client作为HBase之上的Sql层,实现对HBase数据库查询。在保证系统高可靠、高可用的情况下,实现了卡口系统数据的快速写入和读取。
互联网
针对微博信息分析的HBase存储结构设计 :随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。 基于 HBase 的互联网电视运营分析架构和模型设计:随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。新疆建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。
电力
 基于HBase的配用电海量时序数据存取研究:针对配用电海量时间序列数据,目前南方电网普遍采用关系型数据库进行存储,在技术上使用分库、分区、分表、联合索引等方式进行优化,灵活性、可扩展性、存储量等方面都存在问题.为满足配用电海量时间序列数据的存储要求,分析了关系型数据库优缺点,提出采用分布式数据库HBase构建电力系统数据中心以提高系统性能,并重点分析了HBase数据存储机制及实现方法,最后通过仿真实验进行对比.实验结果表明,基于HBase的配用电海量时间序列数据存取技术在存储及查询操作上具有较大的性能优势. HBase 在智能电网异构数据同步中的应用:未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。

 金融
 基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。

医疗
 基于HBase的海量DICOM医学影像存储系统的设计与研究:文章结合传统医学影像存储的不足和云计算的特点,提出了基于HBase的医学影像存储方案,结果表明基于HBase的DICOM影像数据库能有效解决传统PB级医学影像存储及医疗信息资源共享问题.  

航空
 基于HBase的民用航空发动机大数据管理系统: 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.
小文件存储(图片视频等)
 一种基于HBase的海量图片存储技术针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.   基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。
高能物理
 高能物理大数据挑战与海量事例特征索引技术研究:一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、IO瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.

地理
 基于HBase的海量地形数据存储:随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战.针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法-基于HBase的矢量空间数据分布式存储研究:分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  

写在最后 
更多关于Hbase学术的论文参考:HBase应用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相关的论文,比如 hbase 传感器
  查看全部
引言

 HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等,除此之外,在其它领域也有非常多的应用。这得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊,便于广大读者阅读,特别选择了中文资料),很多都在工业界使用了。 由于涉及到版权,笔者提供链接,不提供资源下载,请大家见谅,可以自行搜索或者下载。感谢各位学者辛苦的研究,也论证了hbase技术在大规模存储的优势,在不同领域的应用场景。

HBase最主要的特性 
  1.   HBase基于HDFS,可以提供廉价的解决方案。在阿里云ApsaraDB for HBase会发布基于D1、I2的物理机方案,存储成本为0.1元每GB每月左右,且可以在线动态添加节点,增加容量。 无需一次性投入全年的量。
  2. HBase容量可以无限扩容:在100T的数据量上毫无压力,在1P的数据量上也类似。
  3. HBase提供超高的并发量:主要得益于系统的除了Master之外的所有节点都直接跟客户端通信,且系统自动分区。有的系统会有一个路由中心,此会极大的限制并发量及流量,跟Spark、HadoopMR等分析系统结合

行业

物联网行业 & 车联网
  • 基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。
  • 基于 HBase的分布式空间数据库技术:针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度
  • 基于HBase的大规模无线传感网络数据存储系统: 无线传感网络(WSN)存在分布的跨区域性,随着无线传感网络的扩张,传感器数目增多,将产生大规模的传感数据.针对存储大规模无线传感网络数据的问题,提出了一个两层分布式存储架构,使用分布式数据库HBase存储跨区域的无线传感网络数据和全局数据存储管理目录,实现一个近实时的存储系统.实验结果证明,该系统有良好的扩展性、存储和查询效率
  • 基于HBase的全天候全域出租车聚集实时监测方法:本发明为基于HBase的全天候全域出租车聚集实时监测方法,公开了一种车辆聚集监测方法。本发明首先将监测区域划分成网格,使用历史GPS数据计算出每个网格出租车数的最大值。然后,实时扫描GPS数据,按时刻截取一段时间的数据进行分析,循环扫描每一个网格,如果某个网格连续n个时刻都大于历史最大值,则观察这n个时刻的车数是否呈递增趋势,如果是则继续计算本时刻是否有一定数量的车和上一时刻相同,成立则说明该网格发生车辆聚集,否则扫描下一个网格。本发明利用出租车GPS数据实时监测每个区域,通过海量的历史出租车GPS和实时数据、HBase数据库、Spark计算框架、数据挖掘方法和最小二乘法构建出了一套快速、准确而有效的实时聚集监测方法
  • 基于HBase的车联网传感数据管理系统设计 :关系型数据库由于面向行存储以及无法扩展等原因,已很难满足大规模车联网传感数据的存储与查询要求.针对该问题,设计了一个基于非关系型数据库HBase存储的车联网传感数据管理系统.该系统采用Hadoop与HBase搭建分布式实验平台,采用C#语言开发Web网页端.通过与传统关系型数据库SQL Server的存储与查询效率进行对比分析,表明HBase在处理大规模车联网传感数据方面具有明显优势.

交通
  • 面向海量交通数据的HBase时空索引:针对HBase无法直接建立时空索引所带来的交通数据查询性能问题,基于HBase行键设计了面向海量交通数据的HBase时空索引.首先利用Geohash降维方法将二维空间位置数据转化为一维编码,再与时间维度进行组合:然后根据组合顺序的不同,提出了四种结构模型,分别讨论了模型的具体构成以及交通数据查询中的适应面;最后提出了相应的时空索引管理算法及基于Hbase时空索引的交通数据查询方法.通过实验验证了提出的HBase时空索引结构能有效提升海量交通数据的区域查询性能,并比较了四种时空索引结构在不同数据规模、不同查询半径以及不同时间范围的查询性能,量化验证了不同索引结构在交通数据查询中的适应场景
  • 基于HBase的交通数据区域查询方法:随着智能交通的发展,交通数据呈现出指数性增长.为了提升时空区域查询性能,论文提出了一种基于HBase的交通数据区域查询方法HRQ.该方法利用交通数据的三维时空特性,采用Geohash算法将交通数据的经纬度信息转为Geohash编码,然后与时间组合作为HBase行键,并设计了相应的查询算法.实验结果表明,与直接组合经纬度和时间作为行键的方法相比,在基于时间范围的区域查询上HRQ方法的性能要高30%以上,在基于区域范围的区域查询上HRQ的性能优势随着查询区域的增大而增加
  • 基于HBase的交通流数据实时存储系统:交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.
  • 基于HBase的交通卡口数据存储和查询系统研发:该系统采用分布式架构,前端摄像头传感器以Http协议方式将交通卡口数据发送给Flume分布式采集系统,采集系统对多源异构数据进行分类、聚合规范化整理,然后将不同类型的卡口数据传入到Kafka分布式消息队列中进行数据划分,数据划分中重写了Kafka原有的Partition类,从而更好的实现了卡口数据读取的实时性。Storm分布式实时计算系统从消息队列中获取卡口数据并且完成存储过程,最终将卡口数据写入到HBase集群服务器中。利用Phoenix-client作为HBase之上的Sql层,实现对HBase数据库查询。在保证系统高可靠、高可用的情况下,实现了卡口系统数据的快速写入和读取。

互联网
  • 针对微博信息分析的HBase存储结构设计 :随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。
  •  基于 HBase 的互联网电视运营分析架构和模型设计:随着云时代的来临,互联网电视(OTT TV)业务吸引了越来越多的关注。新疆建设兵团所处地域辽阔,生产和生活的网络视频化的管理与服务的需求也日益明显。兵团的互联网电视业务在日常运营中会生成并累积大量的用户行为数据。由于不同类型的用户行为数据来自不同的数据平台,数据结构各异且数量庞大,从成本和性能方面考虑,传统的关系型数据库难以出色地完成用户行为分析。为此,本文介绍一种基于Hbase的互联网电视用户行为分析系统架构和模型设计,实现大规模异构行为数据的挖掘分析,为更好的运营兵团地域的互联网电视业务提供解决办法。

电力
  •  基于HBase的配用电海量时序数据存取研究:针对配用电海量时间序列数据,目前南方电网普遍采用关系型数据库进行存储,在技术上使用分库、分区、分表、联合索引等方式进行优化,灵活性、可扩展性、存储量等方面都存在问题.为满足配用电海量时间序列数据的存储要求,分析了关系型数据库优缺点,提出采用分布式数据库HBase构建电力系统数据中心以提高系统性能,并重点分析了HBase数据存储机制及实现方法,最后通过仿真实验进行对比.实验结果表明,基于HBase的配用电海量时间序列数据存取技术在存储及查询操作上具有较大的性能优势.
  •  HBase 在智能电网异构数据同步中的应用:未来的智能电网在运行中将会产生海量的多态、异构数据,对这些数据的可靠获取、实时分析、同步及处理会给电网信息系统带来前所未有的压力。因此,把电网大数据迁移到云端—数据中心,来实现异构数据的精准、实时同步则显得尤为必要。以解决未来智能电网大数据处理问题为出发点,通过对电网数据中心相关功能需求进行细致分析,对比传统的关系型数据库建模基础,提出了基于Hbase架构的智能电网数据中心的解决方案。最后通过对比 MySQL 性能进行模拟测试,得出所提出的设计方案能够很好地适用于未来智能电网数据中心的构建以及异构数据的同步,达到电网大数据的实时共享、监测及准确分析、处理的目的,在未来智能电网信息管理系统中具有广阔的应用前景。


 金融
  •  基于HBase的金融时序数据存储系统 : 设计并实现了1个基于HBase的金融时序数据的存储系统。设计了基于金融时序数据的HBase预分区策略,可解决HBase存储热点的问题;采用了行键优化策略和基于时序数据的表设计策略,可解决数据存储分散的问题;使用了提供异步处理机制的事件驱动的Netty框架所编写的中间件接收采集器发送的请求,可解决高并发事务的处理问题。实验结果表明,与HBase原生方法相比,该系统的性能在处理高并发事务时更好。


医疗


航空
  •  基于HBase的民用航空发动机大数据管理系统: 为克服传统关系型数据库存储管理海量航空发动机状态监控数据的不足,本研究提出了基于HBase的民用航空发动机大数据管理系统.首先分析了该系统的功能需求,给出了系统整体架构与模块设计,并对关键技术进行了阐述.最后设计试验对比HBase与Oracle的搜索效率.试验结果表明检索结果集较大时HBase的搜索效率明显高于Oracle.本研究中提出的航空发动机大数据管理系统为发动机海量数据的存储管理提供了一种解决方案.

小文件存储(图片视频等)
  •  一种基于HBase的海量图片存储技术针对海量图片存储,已有若干个基于Hadoop的方案被设计出来.这些方案在系统层小文件合并、全局名字空间以及通用性方面存在不足.本文基于HBase提出了一种海量图片存储技术,成功解决了上述问题.本文将介绍基于HBase海量图片存储技术方案,分析其原理及优势,该方案在城市交通监控中得到应用验证.  
  •  基于 HBase 的小文件高效存储方法 :基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。

高能物理
  •  高能物理大数据挑战与海量事例特征索引技术研究:一次大型实验即可产生万亿级的事例.传统高能物理数据处理以ROOT文件为基本存储和处理单位,每个ROOT文件可以包含数千至数亿个事例.这种基于文件的处理方式虽然降低了高能物理数据管理系统的开发难度,但物理分析仅对极少量的稀有事例感兴趣,这导致了数据传输量大、IO瓶颈以及数据处理效率低等问题.提出一种面向事例的高能物理数据管理方法,重点研究海量事例特征高效索引技术.


地理
  •  基于HBase的海量地形数据存储:随着遥感技术的发展,遥感数据的类型和量级发生了巨大变化,对于传统的存储方法产生了挑战.针对HBase中海量地形数据管理效率不高的问题,提出一种四叉树-Hilbert相结合的索引设计方法
  • -基于HBase的矢量空间数据分布式存储研究:分析了分布式数据库HBase的存储模型;结合对HBase集群技术的研究,设计了基于HBase的矢量空间数据存储模型和一种基于MapReduce的并行构建网格空间索引方法,使得海量空间矢量数据的网格索引构建分配到各子节点进行,大大加快索引构建的处理速度;最后,利用HBase集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  


写在最后 
更多关于Hbase学术的论文参考:HBase应用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相关的论文,比如 hbase 传感器
 

HBase全网最佳学习资料汇总

hbasehbase 发表了文章 • 0 个评论 • 1684 次浏览 • 2018-02-05 21:55 • 来自相关话题

1、前言
 HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴、京东、小米都有数千台的HBase集群,中国电信的话单、中国人寿的保单都是存储在HBase中。注意大公司有数十个数百个HBase集群,此点跟Hadoop集群很不相同。另外,数据需求,很多公司是mysql+hbase+hadoop(spark),满足关系型数据库需求,满足大规模结构化存储需求,满足复杂分析的需求。如此流行的原因来源于很多方面,如:
  - 开源繁荣的生态:1. 任何公司倒闭了,开源的HBase还在 2.几乎每家公司都可以去下载源码,改进她,再反馈给社区,就如阿里已经反馈了数百个patch了。加入的人越多,引擎就越好
  - 跟HADOOP深度结合:本就同根同源,在数据存储在HBase后,如果想复杂分析,则非常方便
  - 高扩展、高容量、高性能、低成本、低延迟、稀疏宽表、动态列、TTL、多版本等最为关键,起源google论文,发扬社区及广大互联网公司,设计之初就是为存储互联网,后经过多年的改进升级,如今已经是结构化存储的事实标准

以下资料会一直更新中......请大家关注!

2、书籍
最好买纸质书籍,集中时间看下
HBase权威指南(HBase: The Definitive Guide):理论多一些HBase实战:实践多一些
3、总结性
HBase2.0: HBase2.0 :预计今年会发布,hbase2.0是革命性的版本HBase Phoenix:Apache Phoenix与HBase:HBase之上SQL的过去,现在和未来 社区hbase博客:https://blogs.apache.org/hbase/
4、方法论
学术界关于HBase应用场景(物联网/车联网/交通/电力等)研究大全: HBase在互联网领域有广泛的应用,比如:互联网的消息系统的存储、订单的存储、搜索原材料的存储、用户画像数据的存储等。得益于HBase海量的存储量及超高并发写入读取量。HBase在09年就开始在工业界大范围使用,在学术界,也有非常多的高校、机构在研究HBase应用于不同的行业,本文主要梳理下这些资料(主要是中文资料,有一些是硕士论文\期刊),这些很多都在工业界使用了。HBase使用场景和成功案例  存储互联网的初心不变 一种基于物联网大数据的设备信息采集系统及方法:怎么使用HBase、sparkStreaming、redis处理物联网大数据一种基于HBase的智能电网时序大数据处理方方案:一种基于HBase的智能电网时序大数据处理方方案HBase配合GeoHash算法支持经纬度:此文主要讲GeoHash算法的基于HBase的海量GIS数据分布式处理实践:设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。基于HBase的金融时序数据存储系统:金融类时序数据的存储方案,写的还是结合实际场景的。
5、各大公司的实践
基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:
阿里巴巴-大数据时代的结构化存储HBase在阿里的应用实践:讲述在阿里巴巴集团的实践,HBase在阿里集团已经10000台左右,主要在订单、监控、风控、消息、大数据计算等领域使用阿里巴巴搜索-Hbase在阿里巴巴搜索中的完美应用实践:讲述在搜索场景下hbase的应用及相关的改进日均采集1200亿数据点,腾讯千亿级服务器监控数据存储实践:本文将从当前存储架构存在的问题出发,介绍从尝试使用 Opentsdb 到自行设计 Hbase 存储方案来存储 TMP 服务器海量监控数据的实践历程。滴滴-HBase在滴滴出行的应用场景和最佳实践:统计结果、报表类数据、原始事实类数据、中间结果数据、线上系统的备份数据的一些应用HBase上搭建广告实时数据处理平台]:主要分享 1. 如何通过HBase实现数据流实时关联 2. 如何保证重要的计费数据不重不丢 3. HBase实战经验,优化负载均衡、读写缓存、批量读写等性能问题HBase在京东的实践 :跟阿里一样,京东各个业务线使用了HBase,如:风控、订单、商品评价等中国人寿基于HBase的企业级大数据平台:使用一个大跨表存储所有的保单,HBase宽表的实践HBase在Hulu的使用和实践:用户画像、订单存储系统、日志存储系统的使用Apache HBase at Netease:在报表、监控、日志类业务、消息类业务、推荐类业务、风控类业务有所使用,另外讲述了一些优化的点。10 Million Smart Meter Data with Apache HBase:讲述Hitachi为什么选择hbase及在HBase方面的应用G7:如何用云计算链接30万车辆--EMR&Hbase 在物联网领域的实践及解决方案 讲述了怎么使用spark及hbase来满足物联网的需求
6、结尾
  这些资料是笔者整理,以供有大规模结构化需求的用户及HBase爱好者学习交流,以使用HBase更好的解决实际的问题。欢迎传播,原文路径:http://www.hbase.group/hbase/?/article/1

7、声明
以上资料来自互联网,如果侵权,请联系我删除 查看全部
1、前言
 HBase这几年在国内使用的越来越广泛,在一定规模的企业中几乎是必备存储引擎,互联网企业阿里巴巴、京东、小米都有数千台的HBase集群,中国电信的话单、中国人寿的保单都是存储在HBase中。注意大公司有数十个数百个HBase集群,此点跟Hadoop集群很不相同。另外,数据需求,很多公司是mysql+hbase+hadoop(spark),满足关系型数据库需求,满足大规模结构化存储需求,满足复杂分析的需求。如此流行的原因来源于很多方面,如:
  - 开源繁荣的生态:1. 任何公司倒闭了,开源的HBase还在 2.几乎每家公司都可以去下载源码,改进她,再反馈给社区,就如阿里已经反馈了数百个patch了。加入的人越多,引擎就越好
  - 跟HADOOP深度结合:本就同根同源,在数据存储在HBase后,如果想复杂分析,则非常方便
  - 高扩展、高容量、高性能、低成本、低延迟、稀疏宽表、动态列、TTL、多版本等最为关键,起源google论文,发扬社区及广大互联网公司,设计之初就是为存储互联网,后经过多年的改进升级,如今已经是结构化存储的事实标准

以下资料会一直更新中......请大家关注!

2、书籍
最好买纸质书籍,集中时间看下
  • HBase权威指南(HBase: The Definitive Guide):理论多一些
  • HBase实战:实践多一些

3、总结性

4、方法论

5、各大公司的实践
基本围绕在用户画像、安全风控、订单存储、交通轨迹、物理网、监控、大数据中间存储、搜索、推荐等方面:

6、结尾
  这些资料是笔者整理,以供有大规模结构化需求的用户及HBase爱好者学习交流,以使用HBase更好的解决实际的问题。欢迎传播,原文路径:http://www.hbase.group/hbase/?/article/1

7、声明
以上资料来自互联网,如果侵权,请联系我删除

OLAP on HBase的可选方案有哪些?

hbasefengshen 回复了问题 • 2 人关注 • 1 个回复 • 3858 次浏览 • 2018-02-05 20:56 • 来自相关话题


中国HBase技术社区微信公众号:
hbasegroup

欢迎加入HBase生态+Spark社区钉钉大群