hbase源码系列
❶ hbase 源码 什么语言开发的
是用java开发的,hbase包含两个核心服务,一个是HMaster,一个是HRegionServer,在hbase部署的服务器上调用jps命令能查看到这两个进程。
❷ HBASE 系列 一个RegionServer的Region数量多少合适
HBase 官方文档说一个RegionServer被设计跑20 200个regions,数据大小约5 50Gb。
但是,建议regions在100个左右。
首先 ,理解一个概念‘MSLAB’,即MemStore-Local Allocation Buffer。
每个store都有一个memstore,为了避免在大量数据写入,堆中产生很多碎片,导致stop-the-world GC出现,设置hbase.hregion.memstore.mslab.enabled,来预防此问题。即本地MemStore允许分配的内存大小。
当一个HRegion中的所有MemStore的大小总和超过了hbase.hregion.memstore.flush.size的大小,默认128MB。此时当前的HRegion中所有的MemStore会Flush到HDFS中。
当全局MemStore的大小超过了hbase.regionserver.global.memstore.upperLimit的大小,默认40%的内存使用量。此时当前HRegionServer中所有HRegion中的MemStore都会Flush到HDFS中,Flush顺序是MemStore大小的倒序,直到总体的MemStore使用量低于hbase.regionserver.global.memstore.lowerLimit,默认38%的内存使用量。
.
❸ 如何在windows平台上用Eclipse调试运行HBase
操作步骤如下:
1.下载和安装cygwin;
2.下载新的Zookeeper包和HBase包,这里ZooKeeper版本为3.3.1,HBase版本为0.20.4
3.把利用它们的源码包在Eclipse下生成2个独立的Project,注意:zookeeper工程,要把那个conf目录加入到工程的src中去
4.修改zookeeper工程下的conf目录中的zoo.cfg文件,例子如下:
# The number of milliseconds of each tick
tickTime=5000
# the directory where the snapshot is stored.
dataDir=D:/zookeeper-3.3.1/data
# the port at which the clients will connect
clientPort=2181
就是给zookeeper指定文件存放的地方以及端口
5.启动zookeeper
在Eclipse中新建一个Run config,main class为:org.apache.zookeeper.server.quorum.QuorumPeerMain
启动的程序参数为:D:/workspace/zookeeper3.3.1/conf/zoo.cfg
启动的虚拟机参数为:
-Dzookeeper.log.dir=D:/workspace/zookeeper3.3.1/log
-Dzookeeper.root.logger=INFO,CONSOLE
如图所示:
好了,这样就可以在Eclipse中把ZooKeeper启动起来了。
6.修改HBase project中的一个类
org.apache.hadoop.hbase.LocalHBaseCluster
找到它的main函数,把main函数改成下
public static void main(String[] args) throws IOException {
HBaseConfiguration conf = new HBaseConfiguration();
conf.set("hbase.zookeeper.quorum", "localhost");
conf.set("hbase.zookeeper.property.clientPort", "2181");
LocalHBaseCluster cluster = new LocalHBaseCluster(conf,1);
cluster.startup();
}
注意行:LocalHBaseCluster cluster = new LocalHBaseCluster(conf,1); 构造函数中的1是代表Region server的个数,在这里只想起一个region server.
7.修改HBase的配置文件
在HBase project下的src中可以看到hbase-default.xml和hbase-site.xml两个文件,改哪个都可以。直接在hbase-default.xml改的,重要的是下面3个属性hbase.rootdir,hbase.cluster.distributed,hbase.tmp.dir,
把hbase.rootdir,hbase.tmp.dir都指向了本地的目录,当然可以根据自己的需要调整,当然格式一定一样写。
<property>
<name>hbase.rootdir</name>
<value>file:///D:/hbase-0.20.3/data</value>
<description>The directory shared by region servers.
Should be fully-qualified to include the filesystem to use.
E.g: hdfs://NAMENODE_SERVER:PORT/HBASE_ROOTDIR
</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>false</value>
<description>The mode the cluster will be in. Possible values are
false: standalone and pseudo-distributed setups with managed Zookeeper
true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)
</description>
</property>
<property>
<name>hbase.tmp.dir</name>
<value>D:/hbase-0.20.3/tmp</value>
<description>Temporary directory on the local filesystem.</description>
</property>
<property>
8.启动HBase,直接run org.apache.hadoop.hbase.LocalHBaseCluster就可以,run config不需要没有什么别的配置。当然就也可以debug了。
❹ hbase源代码 纯java开发的吗
是的,纯java开发的nosql
❺ hbase框架中使用了哪些概念
HBase提供了对HBase进行一系列的管理涉及到对表的管理、数据的操作java api。 常用的API操作有: 1、 对表的创建、删除、显示以及修改等,可以用HBaseAdmin,一旦创建了表,那么可以通过HTable的实例来访问表,每次可以往表里增加数据。
❻ Hbase源代码不开放
不开放。Hbase源代码是进行过加密设置的,没有进行对外开放,是为了更好的做好保密工作,有非常重要的信息技术类文件,各部门领导员工都非常重视。
❼ 如何搭建Hbase源码阅读环境,并能进行编译运行
hbase源码导入eclipse分三步:
1.svn下载源码
2.mvn package -Dmaven.test.skip.exec=true编译源码
3.导入eclipse,可以用插件,用mvn eclipse:eclipse生成eclipse文件,导入eclipse。
❽ 大数据分析应该掌握哪些基础知识呢
前言,学大数据要先换电脑:
保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。
1,语言要求
java刚入门的时候要求javase。
scala是学习spark要用的基本使用即可。
后期深入要求:
java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。
2,操作系统要求
linux 基本的shell脚本的使用。
crontab的使用,最多。
cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。
scp,ssh,hosts的配置使用。
telnet,ping等网络排查命令的使用
3,sql基本使用
sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。
sql统计,排序,join,group等,然后就是sql语句调优,表设计等。
4,大数据基本了解
Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。
5,maprece及相关框架hive,sqoop
深入了解maprece的核心思想。尤其是shuffle,join,文件输入格式,map数目,rece数目,调优等。
6,hive和hbase等仓库
hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。
hbase看浪尖hbase系列文章。hive后期更新。
7,消息队列的使用
kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。
8,实时处理系统
storm和spark Streaming
9,spark core和sparksql
spark用于离线分析的两个重要功能。
10,最终方向决策
a),运维。(精通整套系统及故障排查,会写运维脚本啥的。)
b),数据分析。(算法精通)
c),平台开发。(源码精通)
自学还是培训?
无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。
有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,
想办法跟大牛做朋友才是王道。
❾ 如何使用scala+spark读写hbase
如何使用scala+spark读写Hbase
软件版本如下:
scala2.11.8
spark2.1.0
hbase1.2.0
公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索的结果是在es里面存储的,公司也正在引入Kylin作为OLAP的数据分析引擎,这块后续有空在研究下。
接着上面说的,hbase存储着一些实时的数据,前两周新需求需要对hbase里面指定表的数据做一次全量的update以满足业务的发展,平时操作hbase都是单条的curd,或者插入一个批量的list,用的都是hbase的java api比较简单,但这次涉及全量update,所以如果再用原来那种单线程的操作api,势必速度回慢上许多。
关于批量操作Hbase,一般我们都会用MapRece来操作,这样可以大大加快处理效率,原来也写过MR操作Hbase,过程比较繁琐,最近一直在用scala做spark的相关开发,所以就直接使用scala+spark来搞定这件事了,当然底层用的还是Hbase的TableOutputFormat和TableOutputFormat这个和MR是一样的,在spark里面把从hbase里面读取的数据集转成rdd了,然后做一些简单的过滤,转化,最终在把结果写入到hbase里面。
整个流程如下:
(1)全量读取hbase表的数据
(2)做一系列的ETL
(3)把全量数据再写回hbase
核心代码如下:
//获取conf
val conf=HBaseConfiguration.create() //设置读取的表
conf.set(TableInputFormat.INPUT_TABLE,tableName) //设置写入的表
conf.set(TableOutputFormat.OUTPUT_TABLE,tableName)//创建sparkConf
val sparkConf=new SparkConf() //设置spark的任务名
sparkConf.setAppName("read and write for hbase ") //创建spark上下文
val sc=new SparkContext(sparkConf)
//为job指定输出格式和输出表名
val newAPIJobConfiguration1 = Job.getInstance(conf)
newAPIJobConfiguration1.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, tableName)
newAPIJobConfiguration1.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
//全量读取hbase表
val rdd=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat]
,classOf[ImmutableBytesWritable]
,classOf[Result]
)
//过滤空数据,然后对每一个记录做更新,并转换成写入的格式
val final_rdd= rdd.filter(checkNotEmptyKs).map(forDatas)
//转换后的结果,再次做过滤
val save_rdd=final_rdd.filter(checkNull)
//最终在写回hbase表
save_rdd.saveAsNewAPIHadoopDataset(newAPIJobConfiguration1.getConfiguration)
sc.stop()
从上面的代码可以看出来,使用spark+scala操作hbase是非常简单的。下面我们看一下,中间用到的几个自定义函数:
第一个:checkNotEmptyKs
作用:过滤掉空列簇的数据
def checkNotEmptyKs(f:((ImmutableBytesWritable,Result))):Boolean={ val r=f._2 val rowkey=Bytes.toString(r.getRow) val map:scala.collection.mutable.Map[Array[Byte],Array[Byte]]= r.getFamilyMap(Bytes.toBytes("ks")).asScala if(map.isEmpty) false else true
}
第二个:forDatas
作用:读取每一条数据,做update后,在转化成写入操作
def forDatas(f: (ImmutableBytesWritable,Result)): (ImmutableBytesWritable,Put)={ val r=f._2 //获取Result
val put:Put=new Put(r.getRow) //声明put
val ks=Bytes.toBytes("ks") //读取指定列簇
val map:scala.collection.mutable.Map[Array[Byte],Array[Byte]]= r.getFamilyMap(ks).asScala
map.foreach(kv=>{//遍历每一个rowkey下面的指定列簇的每一列的数据做转化
val kid= Bytes.toString(kv._1)//知识点id
var value=Bytes.toString(kv._2)//知识点的value值
value="修改后的value"
put.addColumn(ks,kv._1,Bytes.toBytes(value)) //放入put对象
}
) if(put.isEmpty) null else (new ImmutableBytesWritable(),put)
}
第三个:checkNull 作用:过滤最终结果里面的null数据
def checkNull(f:((ImmutableBytesWritable,Put))):Boolean={ if(f==null) false else true
}
上面就是整个处理的逻辑了,需要注意的是对hbase里面的无效数据作过滤,跳过无效数据即可,逻辑是比较简单的,代码量也比较少。
除了上面的方式,还有一些开源的框架,也封装了相关的处理逻辑,使得spark操作hbase变得更简洁,有兴趣的朋友可以了解下,github链接如下:
❿ hbase源码怎么导入eclipse
如何使用Eclipse导入并运行源码(
网上关于Eclipse配置和开发入门程序的文章很多,可是要么很粗浅,要么很高深,却很少看到讲解如何把别人的源码导入到自己的Eclipse环境中编译运行的描述。做为初学者,能够学习网上一些优秀源码是提高的必由之路,可是Eclipse却不象VC和Delphi那样容易上手,对于很多初学者来说,它似乎还是太难了点。在找不到很好的关于Eclipse入门教程的情况下,为了能运行网上下载的Java源码,我颇费了一些时间寻找如何正确的导入源码并运行的方法,不敢独美,特贡献出来与初学者共享。
运行环境:
Java EE 5.0
Eclipse 3.1 中文版
源代码用例(都是Java Application):
仿真Windows记事本
连连看
上述的两个源代码在赛迪网上可以找到。关于JDK的配置、安装和Eclipse的安装本文不再赘述,读者可以很容易地找到相关的资料。本文只讲使用Eclipse来导入源代码的方法。
首先确保你的工作空间已经创建好,在我的机器上工作空间所在的目录是“e:/workspace”。源代码存放路径假设为“我的文档/cai/Java/一个仿windows的记事本”和“我的文档/cai/Java/连连看/kyodai”。
下面开始介绍导入源码的方法。
◎选择菜单“文件/新建/项目”,选择“Java项目”,弹出“创建Java项目”对话框。
◎在“创建Java项目”中输入“项目名”,项目名可以为任意名字,不必和main类的名字一样。这里假设为“Notepad”。
在“内容”中有两个单选按钮,视你的需要来使用。其中“在工作空间中创建新项目”会在你的工作空间中创建一个新目录,目录名与项目名一致;“从现有资源创建项目”可以在源码所在目录中直接编译运行,生成的class文件也会存放在源码目录中。
下面先讲“在工作空间中创建新项目”的方法。
◎在“内容”中单选“在工作空间中创建新项目”,点击“完成”按钮。此时在e:/workspace下生成Notepad目录。
◎下面需要导入源码到工作空间去。选择菜单“文件/导入”,选择“文件系统”。弹出“文件系统”对话框。
◎在“从目录”中选择源码存放目录“我的文档/cai/Java/一个仿windows的记事本”,勾选上所有的.java源码,其他的垃圾不要选上。下面又有两个选择:对话框下方有两个选项,若选择“创建完整的文件夹结构”,就会按源码所存放的路径完整地在工作空间中创建目录,创建完毕会由于main方法类的路径不对而在包资源管理器内的图标上显示叉叉,无法编译成功;若选择“只创建选择的文件夹”,则会在工作空间创建的目录下导入所有的文件而不会保留原目录,此时可以编译成功。
◎若选择“创建完整的文件夹结构”,导入完成后,选择菜单“项目/属性/Java构建路径/源代码”,点击“添加文件夹”,把子目录逐级点开,直到源代码所在这级目录为止,勾选上该目录。弹出的提示对话框点击确定即可。注意上级目录不要勾选,否则会报错。这样这种方法导入的源码也可以编译运行了。
◎注意若源代码中含有子目录,在main程序中会有import ...的语句,此时要注意import后面的目录级别,在选择Java构建路径时要勾选上import指明的上级目录名。例如,连连看代码中有子目录topbar,在main程序中有import kyodai.topbar语句,那么就要勾选到“我的文档/cai/Java/连连看/”这级目录,而非源码所在的“我的文档/cai/Java/连连看/kyodai”目录。
◎在连连看源码中,作者已经把所有源码都打包成了一个Jar,此时只需要添加该Jar包而不需要导入其他源码就可以运行了(但不能调试,因为Jar包中不含源码)。方法是创建完新项目后,选择菜单“项目/属性/Java构建路径”,点击“库”页,点击“添加外部JAR”按钮,选择源码自带的Jar包即可运行。
下面介绍“从现有资源创建项目”的方法。
◎在“创建Java项目”对话框中,点击“下一步”按钮,弹出“Java设置”对话框。
◎在“Java设置”对话框中选择“库”页,选择“添加JAR”,若找不到随源码提供的Jar包,就选择“添加外部JAR”。一般如果Jar存放的目录正确,在“添加JAR”中是可以找到该条目的。双击出现的Jar包即可添加进去。若不需要额外的库支持,则点击“完成”。
这样,用上面两种方法创建的项目就可以编译运行了。下面就介绍运行的方法。
◎选择菜单“Run/运行”,弹出“创建、管理和运行配置”对话框。
◎根据源码的种类在左边的列表中进行选择。我们用的两个例子都是Java应用程序,所以双击“Java应用程序”,在对话框右边可以输入运行的配置。
◎如果新建了项目还没有运行过,那么右边的“项目”栏缺省值即为刚创建的项目。在“名称”栏中输入运行配置的名称,建议与项目名称一致(也可以不一致),不能与其他的运行配置重名。
◎点击“Main类”栏右方的“搜索”按钮,一般只有一个main类,在弹出的对话框中双击下面那个栏目的main类即可。如果需要以其他的main方法做为程序入口,可以勾选上“Main类”栏下方的两个复选框,选择其他的入口。
◎如果需要增加特殊的环境变量,例如有的源码可能需要添加classpath环境变量,则可以在“环境”页中添加。
◎运行配置中的内容也会同样反映在调试配置中,运行和调试使用相同的配置。
创建了一堆新项目后,包资源管理器中会有一堆乱七八糟项目,有些是你需要的,有些是早已废弃不用的,你可以删除那些不用的项目,方法是右键点击该项目,选择“删除”。这里要提醒读者一下的是,删除对话框有两个选项,问你是否删除该项目目录下的内容,缺省是“不删除内容”,如果选择删除,那么那个目录就整个被删除掉了,如果你这个目录下的东西还有用,那你只好哭了。
删除掉没用的项目后,运行/调试对话框中多余的配置也可以删除,方法是右键点击不用的配置名,选择删除。
好了,这是我初学Eclipse的一些心得,希望能对广大想要使用Eclipse又担心它烦琐的初学者有些帮助。