hbase(hbase预分区多少合适)

1. hbase，hbase预分区多少合适？

HBase进行预分区，充分考虑rowkey的分布做出合理的预分区方案，要考虑的点包括region的个数、region的大小等

在hbase shell中使用create建表时只写了表名和列族名，那么这张表将只有一个region ，当一个region的大小超过阈值时会自动split成两个，但split操作会带来资源消耗。region个数太少时，在数据量大、访问量大，或被批处理程序读写情况下性能可能会很差，并且伴随大批量读写而来的GC可能会使regionserver宕机，接着region被transit到其他节点上，将逐步拖垮HBase集群上的所有节点。

hbase(hbase预分区多少合适)

2. hbase在项目里面是干什么的？

Hbase是一个分布式的、面向列的开源数据库，在hadoop之上提供了类似于bigtable的能力，是apache的hadoop项目的子项目。hbase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

这里的列式存储其实说的是列族（ColumnFamily）存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。

3. hbase表的特点是？

HBase是一个在HDFS上开发的面向列的分布式数据库。从逻辑上来讲，HBase将数据按照表、行和列进行存储。与HDFS一样，HBase主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。HBase表的特点如下：

容量大：一个表可以有数十亿行，上百万列。当关系型数据库的单个表的记录在亿级时，则查询和写入的性能都会呈现指数级下降，而HBase对于单表存储百亿或

更多的数据都没有性能问题。

无固定模式(表结构不固定):每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然并的列。

面向列：面向列的存储和权限控制，支持列独立检索。关系型数据库是按行存储的，在数据量大的时候，关系型数据库依赖索引来提高查询速度，而建立索引和更新。

Hbase的优点

HDFS有高容错，高扩展的特点，而Hbase基于HDFS实现数据的存储，因此Hbase拥有与生俱来的超强的扩展性和吞吐量。

HBase采用的是Key/Value的存储方式，这意味着，即便面临海量数据的增长，也几乎不会导致查询性能下降。

HBase是一个列式数据库，相对于于传统的行式数据库而言。当你的单张表字段很多的时候，可以将相同的列(以regin为单位)存在到不同的服务实例上，分散负载压力。

Hbase的缺点

架构设计复杂，且使用HDFS作为分布式存储，因此只是存储少量数据，它也不会很快。在大数据量时，它慢的不会很明显！

Hbase不支持表的关联操作，因此数据分析是HBase的弱项。常见的 group by或order by只能通过编写MapReduce来实现！

Hbase部分支持了ACID

4. 谁能说说mangodb和hbase的区别？

了解了一下MongoDB，感觉还挺牛的，适合海量数据的实时插入，更新，查询，而且支持多条件查询，以及建立多维度的索引。

相比HBase，Hbase对于海量数据的实时插入，更新，查询是没有压力的，而且操作的效率跟数据的量没有关系，即数据量的大小不会影响操作的效率，但是Hbase的实时查询是建立在针对rowkey的查询基础上的，因为Hbase只能对rowkey进行建立索引，查询也只能根据rowkey进行查询，无法实现同MongoDB一样的多条件查询。

小数据的要求对于MongoDB和Hbase都没有影响，因为MongoDB和Hbase都是一种数据库，主要就是用于存储零碎的小数据。

所以感觉如果只是用于海量实时的小数据那么MongoDB可能会好点，但是如果还需要对数据进行统计分析，那么最好还是考虑统计分析的因素。

如你使用mapreduce进行数据统计分析，那么hbase可能会更好些，虽然MongoDB也支持mr。以上纯属个人观点

5. hbase压缩lzo和snappy的区别？

lzo 是压缩文件。一般 Linux 下面的压缩都是流压缩，也就是只能压缩一个文件。这种文件是没办法看内容的，只能直接解压缩。图形界面双击即可。

6. 导出后如何导入？

可以使用HBase自带的工具进行导入，其中最常用的工具是HBase的Import命令。

首先，将导出的HBase数据文件存储到Hadoop文件系统中。

然后，在目标HBase集群上运行Import命令，指定导入的表和数据文件的路径。

通过该命令，HBase会读取数据文件，并将数据导入指定的表中。

除了Import命令，还可以使用HBase的其他工具如Hive、Sqoop来导入数据，根据实际需求选择最合适的方法。

7. hbase是系统软件吗？

HBase 。不是系统软件，是一个开源的、分布式的、版本化的非关系型数据库，它利用 Hadoop 分布式文件系统（Hadoop Distributed File System，HDFS）提供分布式数据存储。HBase 是一个可以进行随机访问的存取和检索数据的存储平台，存储结构化和半结构化的数据，因此一般的网站可以将网页内容和日志信息都存在 HBase 里。