两台服务器手动部署大数据平台_服务器知识

两台服务器手动部署大数据平台

##### 初始服务器数量

- 2台centos7

##### 建议配置

- 32G(RAM)

- 24cpu

- 10t(SATA)

### 1.环境

- 系统centos7

- jdk：1.8.0_171（64位）

- zookeeper：3.4.8

- spark-2.1.0-bin-hadoop2.6

- kafka_2.10-0.10.2.1

- hadoop-2.7.0

- hbase-1.2.6

- elasticsearch-6.3.0

### 2.系统准备

对应的安装包文件：

elasticsearch-6.3.0.tar.gz

hadoop-2.7.0.tar.gz

hbase-1.2.6-bin.tar.gz

jdk-8u171-linux-x64.tar.gz

kafka_2.10-0.10.2.1.tgz

mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

spark2.1.0hadoop2.6.tgz.gz

zookeeper-3.4.8.tar.gz

一、配置好hosts

```

两台设备的host

ip1 hello1

ip2 hello2

关闭防火墙

systemctl stop firewalld

systemctl disable firewalld

二、机器之间做好免密

1. 在hello1服务器中，cd /root/

2. ssh-keygen -trsa (全部按回车，走默认配置)

3. cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

4. chmod 600 ~/.ssh/authorized_keys

5. scp ~/.ssh/authorized_keys root@hello2:~/.ssh/

到此处时可以实现hello1机器上通过root账户登录到hello2中，但从hello2中无法通过免密码登录到hello1服务器。

6. 在hello2服务器中，cd /root/

7. ssh-keygen -trsa (全部按回车，走默认配置)

8. cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

9. scp ~/.ssh/authorized_keys root@hello1:~/.ssh/

到此处时可以实现hello1机器与hello2机器之间免密码互通

三、建立一个用户操作elasticsearch用户，后期所有安装软件放在该目录下（当前使用root账户安装）

1.添加用户：

useradd -m -s /bin/bash es

2.为该用户设置密码：

password es

四、安装JDK

如果系统自带openjdk，先将其卸载掉！

1.创建jdk安装路径(hello1、hello2都执行)

执行： mkdir /usr/java

2.解压缩jdk到安装目录

执行： tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/

3.添加环境变量

vi /etc/profile,添加以下语句

export JAVA_HOME=/usr/java/jdk1.8.0_171

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

执行：source /etc/profile

4.复制安装包和数据目录到hello2

scp -r /usr/java/jdk1.8.0_171 hello2:/usr/java/

scp /etc/profile hello2:/etc/

登录到hello2上，进入/home/es目录

执行： source /etc/profile

5、验证：

两台服务器上分别执行： java -version,查看输出的版本是否与安装的版本一致。

五、安装mysql

1.如果centos系统中自带mariadb，先卸载mariadb。

2.解压mysql安装包程序

执行：tar -xvf mysql-5.7.23-1.el7.x86_64.rpm-bundle.tar

3.依次安装里面rpm包组建

rpm -ivh mysql-community-common-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.23-1.el7.x86_64.rpm

rpm -ivh mysql-community-devel-5.7.23-1.el7.x86_64.rpm

4.启动MySQL

执行： systemctl start mysqld

5.登录mysql服务器

这种方式安装好后，会再my.cnf文件中自动生成一个密码，

执行：cat /var/log/mysqld.log | grep password，出现如下记录：

2017-09-15T01:58:11.863301Z 1 [Note] A temporary password is generated for root@localhost: m-NdrSG4ipuO

其中“m-NdrSG4ipuO”为mysql root账户的初始密码。

执行： mysql -uroot -p

输入密码： m-NdrSG4ipuO，即可进入mysql服务器。

后续可自行修改root密码，创建新账户等操作。

六、安装zookeeper

1.解压zookeeper安装包到指定目录（/home/es）

tar -zxvf zookeeper-3.4.8.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s zookeeper-3.4.8 zookeeper

3.添加执行路径环境

vi /etc/profile

添加

export ZOOKEEPER_HOME=/home/es/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

执行

source /etc/profile

4.修改配置文件

cd /home/es/zookeeper

cp conf/zoo_sample.cfg conf/zoo.cfg

在/home/data下创建对应的zookeeper数据存储目录

mkdir /home/data/zookeeper

mkdir /home/data/zookeeper/data

mkdir /home/data/zookeeper/log

修改配置文件：conf/zoo.cfg，添加以下语句

dataDir=/home/data/zookeeper/data

dataLogDir=/home/data/zookeeper/log

server.1=hello1:2888:3888

server.2=hello2:2888:3888

5.创建server表示符文件

touch /home/data/zookeeper/data/myid

echo echo 1>/home/data/zookeeper/data/myid

6.复制安装包和数据目录到hello2

scp -r /home/es/zookeeper-3.4.8 es@hello2:/home/es

scp -r /home/data/zookeeper es@hello2:/home/data

scp /etc/profile es@hello2:/etc

登录到hello2上

cd /home/es

ln -s zookeeper-3.4.8 zookeeper

echo echo 2>/home/data/zookeeper/data/myid

执行

source /etc/profile

7.两台机器上分别执行

zkServer.sh start

8.验证

jps | grep QuorumPeerMain,查看是否有该进程

zkServer.sh status,查看服务状态

六、安装kafka

1.解压kafka安装包到指定目录（/home/es）

tar -zxvf kafka_2.10-0.10.2.1.tgz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s kafka_2.10-0.10.2.1 kafka

3.修改配置文件

备份：

cp config/server.properties config/server.properties.bak

创建kafka日志目录：

mkdir /home/data/kafka

mkdir /home/data/kafka/kafka-logs

修改:config/server.properties,具体对应字段如下：

broker.id=0

delete.topic.enable=true

num.network.threads=10

num.io.threads=32

socket.send.buffer.bytes=102400

socket.receive.buffer.bytes=102400

socket.request.max.bytes=104857600

log.dirs=/home/data/kafka/kafka-logs

num.partitions=1

num.recovery.threads.per.data.dir=1

log.retention.hours=168

log.segment.bytes=1073741824

log.retention.check.interval.ms=300000

zookeeper.connect=hello1:2181,hello2:2181

zookeeper.connection.timeout.ms=6000

6.复制安装包和数据目录到hello2

scp -r /home/es/kafka_2.10-0.10.2.1 es@hello2:/home/es

scp -r /home/data/kafka es@hello2:/home/data

修改hello2中的配置

登录到hello2上，cd /home/es/kafka,修改config/server.properties中broker.id值为2.

7.启动kafka

在两台机器的/home/es/kafka中，创建一个日志存放目录：mkdir start_log，执行以下命令：

nohup bin/kafka-server-start.sh config/server.properties >start_log/kafka_start_log 2>&1 &

8.验证运行情况

jps | grep Kafka,查看进程

通过kafka命令查看topic。

七、安装hadoop

1.解压hadoop安装包到指定目录（/home/es）

tar -zxvf hadoop-2.7.0.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s hadoop-2.7.0 hadoop

3.创建数据存放目录

mkdir /home/data/hadoop

mkdir /home/data/hadoop/tmp

mkdir /home/data/hadoop/dfs

mkdir /home/data/hadoop/dfs/data

mkdir /home/data/hadoop/dfs/name

4.修改配置文件

修改/home/es/hadoop/etc/hadoop/core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://hello1:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/data/hadoop/tmp</value>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>file:/home/data/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/data/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>hello1:9001</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>hello1:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hello1:19888</value>

</property>

</configuration>

修改/home/es/hadoop/etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>hello1:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hello1:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hello1:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>hello1:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hello1:8088</value>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

</configuration>

配置/home/es/hadoop/etc/hadoop目录下hadoop-env.sh、yarn-env.sh的JAVA_HOME（不设置的话，启动不了）

export JAVA_HOME=/usr/java/jdk1.8.0_171

配置/home/es/hadoop/etc/hadoop目录下的slaves，删除默认的localhost，增加2个从节点，

hello1

hello2

5、将配置好的Hadoop复制到各个节点对应位置上，通过scp传送

scp -r /home/es/hadoop-2.7.0 hello2:/home/es/

scp -r /home/data/hadoop hello2:/home/data/

登录到hello2上，进入/home/es目录

执行： ln -s hadoop-2.7.0 hadoop

6、格式化nameNode及启动hadoop

在主服务器启动hadoop，从节点会自动启动，进入/home/es/hadoop目录

初始化，输入命令，bin/hdfs namenode -format

全部启动sbin/start-all.sh，也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh

输入命令，jps，可以看到相关信息

7、验证hadoop运行情况

浏览器打开http://hello1:8088/

浏览器打开http://hello1:50070/

8、添加hadoop环境变量到/etc/profile

export HADOOP_HOME=/home/es/hadoop export PATH=$PATH:$HADOOP_HOME/sbin

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

执行： source /etc/profile

八、安装Hbase

1.解压hbase安装包到指定目录（/home/es）

tar -zxvf hbase-1.2.6-bin.tar.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s hbase-1.2.6 hbase

3.添加hbase环境变量到/etc/profile

export HBASE_HOME=/home/es/hbase

export PATH=$HBASE_HOME/bin:$PATH

执行：source /etc/profile

4.修改HBASE配置文件

vi /home/es/hbase/conf/hbase-env.sh

增加： export JAVA_HOME=/usr/java/jdk1.8.0_171

修改： export HBASE_MANAGES_ZK=false

vi /home/es/hbase/conf/hbase-site.xml

修改类容：

<name>hbase.rootdir</name>

<value>hdfs://hello1:9000/hbase/hbase_db</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>hello1,hello2</value>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/home/es/hbase/zookeeper</value>

　</property>

</configuration>

配置regionservers，vi /home/es/hbase/conf/regionservers

去掉默认的localhost，加入hello1、hello2

5、将配置好的hbase复制到各个节点对应位置上，通过scp传送

scp -r /home/es/hbase-1.2.6 hello2:/home/es/

scp /etc/profile hello2:/etc/

登录到hello2上，进入/home/es目录

执行： ln -s hbase-1.2.6 hbase

source /etc/profile

6、hbase的启动

hello1中执行： start-hbase.sh

7、验证hbase运行情况

输入jps命令查看进程是否启动成功，若 hello1上出现HMaster、HRegionServer、HQuormPeer，hello2上出现HRegionServer、HQuorumPeer，就是启动成功了。

输入hbase shell 命令进入hbase命令模式，输入status命令，查看运行状态。

在浏览器中输入http://hello1:16010就可以在界面上看到hbase的配置

注意事项：

正常安装后，创建普通不带压缩表可以正常读写，当使用snappy进行压缩创建表时，该表无法再regionServer中启动！

解决方法：

1.在hbase-site.xml文件中添加一下属性

<name>hbase.regionserver.codecs</name>

<value>snappy</value>

</property>

2.每台机器中将hadoop_native.zip解压缩到hbase安装目录的lib下，执行 unzip hadoop_native.zip $HBASE_HOME/lib/

3.在$HBASE_HOME/conf/hbase-env.sh 中添加：export HBASE_LIBRARY_PATH=/home/es/hbase/lib/native

4.重启Hbase服务即可

九、Spark安装

1.解压hbase安装包到指定目录（/home/es）

tar -zxvf spark2.1.0hadoop2.6.tgz.gz -C /home/es

2.创建程序软连接

cd /home/es/

ln -s spark2.1.0hadoop2.6 spark

3.修改配置文件

mv /home/es/spark/conf/spark-env.sh.template /home/es/spark/conf/spark-env.sh

vi /home/es/spark/conf/spark-env.sh

修改对应配置：

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello1

修改slaves文件

mv /home/es/spark/conf/slaves.template /home/es/spark/conf/slaves

vi /home/es/spark/conf/slaves

将localhost修改成：

hello1

hello2

5、将配置好的hbase复制到各个节点对应位置上，通过scp传送

scp -r /home/es/spark2.1.0hadoop2.6 hello2:/home/es/

登录到hello2上，进入/home/es目录

执行： ln -s spark2.1.0hadoop2.6 spark

在hello2中修改/home/es/spark/conf/spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_171

export SPARK_MASTER_IP=hello1

export SPARK_MASTER_PORT=7077

export SPARK_LOCAL_IP=hello2

6、启动spark

cd /home/es/spark

执行： sbin/start-all.sh

7、检测执行结果

jps | grep Worker,看是否有相应的进程。

十、安装elasticsearch

由于elasticsearch，用root账户无法启动，故该组件用es账户安装

1、切换到es账户： su es

2、解压hbase安装包到指定目录（/home/es）

tar -zxvf elasticsearch-6.3.0.tar.gz -C /home/es/

创建程序软连接

cd /home/es/

ln -s elasticsearch-6.3.0 elasticsearch

3、修改配置文件

vi /home/es/elasticsearch/config/elasticsearch.yml

# 集群的名字

cluster.name: crrc-health

# 节点名字

node.name: node-1

# 数据存储目录（多个路径用逗号分隔）

path.data: /home/data1/elasticsearch/data

# 日志目录

path.logs: /home/data1/elasticsearch/logs

#本机的ip地址

network.host: hello1

#设置集群中master节点的初始列表，可以通过这些节点来自动发现新加入集群的节点

discovery.zen.ping.unicast.hosts: ["hello1", "hello2"]

# 设置节点间交互的tcp端口（集群）,(默认9300)

transport.tcp.port: 9300

# 监听端口（默认）

http.port: 9200

# 增加参数，使head插件可以访问es

http.cors.enabled: true

http.cors.allow-origin: "*"

4、创建elasticsearch数据和存储目录

mkdir /home/data1/elasticsearch

mkdir /home/data1/elasticsearch/data

mkdir /home/data1/elasticsearch/logs

5、修改linux系统的默认硬限制参数

切换至root用户： su root

vim /etc/security/limits.conf

添加：

es soft nofile 65536

es hard nofile 65536

退出es登录，重新用es账户登录，使用命令：ulimit -Hn查看硬限制参数。

vi /etc/sysctl.conf

添加：

vm.max_map_count=655360

执行：

sysctl -p

6、将配置好的elasticsearch复制到各个节点对应位置上，通过scp传送

scp -r /home/es/elasticsearch-6.3.0 hello2:/home/es/

scp -r /home/data1/elasticsearch hello2:/home/data1/

登录到hello2上，进入/home/es目录

执行： ln -s elasticsearch-6.3.0 elasticsearch-6.3.0

在hello2中修改/home/es/elasticsearch/config/elasticsearch.yml

修改： network.host: hello2

7、启动elasticsearch

使用es账户

执行：

/home/es/elasticsearch/bin/elasticsearch -d

8、验证

控制台中输入：curl http://hello1:9200

start-all.sh这个命令不用了，现在使用start-dfs.sh 和 start-yarn.sh代替start-all.sh命令，可能是因为跟spark里的start-all.sh命令重名了，这是打印的第一行信息的意思；

后面提示的WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable是缺少一个java类库，不影响运行

要解决可以参考

网页链接里面有解决方法

localhost: namenode running as process 6357. Stop it first.

0.0.0.0: secondarynamenode running as process 6637.

Stop it first.starting yarn daemons

resourcemanager running as process 6777. Stop it first.

localhost: nodemanager running as process 6880. Stop it first.

这些都是因为你之前已经开启了这些服务，正在运行，你再开启就提示你先关闭

收集NBU软件信息 nbsu_info

C:\Program Files\Veritas\NetBackup\bin\support\nbsu.exe -s DEV_scsi_reg -s NBU_nbdb_info -s

收集进程状态信息 NBU_bpps

C:\Program Files\Veritas\NetBackup\bin\bpps

备份存储单元状态 NBU_bpstulist

C:\Program Files\Veritas\netbackup\bin\admincmd\bpstulist -g -U

磁带使用状态 NBU_available_media

C:\Program Files\Veritas\NetBackup\Bin\goodies\available_media -a

客户端信息 NBU_bpplclients

C:\Program Files\Veritas\NetBackup\Bin\admincmd\bpplclients -allunique -U

备份作业检查 NBU_backup_status

C:\Program Files\Veritas\NetBackup\Bin\admincmd\bperror -U -backstat

linux下巡检命令

[root@nbuserver ~]# /usr/openv/netbackup/bin/bpps -a

[root@nbuserver ~]# /usr/openv/netbackup/bin/admincmd/bpstulist -L

[root@nbuserver ~]# /usr/openv/netbackup/bin/admincmd/bpplclients -allunique -U

[root@nbuserver ~]# /usr/openv/netbackup/bin/admincmd/bpdbjobs -L

[root@nbuserver ~]# /usr/openv/netbackup/bin/admincmd/bperror -backstat -hoursago 72 –L

日志文件收集执行命令 /usr/openv/netbackup/bin/support/nbsu -c -t

启动NetBackup图形界面

/usr/openv/netbackup/bin/jnbSA &

可做alias如下所示

oracle@nbumaster:~>cat /etc/bash.bashrc | grep ^alias

alias nbu='/usr/openv/netbackup/bin/jnbSA &'

NetBackup故障后，日志收集

nbumaster:~ # /usr/openv/netbackup/bin/support/nbsu

日志存放点：/usr/openv/netbackup/bin/support/output/nbsu

以及收集如下日志：

3. Display NetBackup status and troubleshooting information or entries from NetBackup error catalog

Unix/Linux

/usr/openv/netbackup/bin/admincmd/bperror -all -hoursago 72 -verbose -U >/tmp/bperror_all.txt

/usr/openv/netbackup/bin/admincmd/bperror -backstat -hoursago 72 -verbose -U >/tmp/bperror_backstat.txt

/usr/openv/netbackup/bin/admincmd/bperror -problems -hoursago 72 -verbose -U >/tmp/bperror_problems.txt

/usr/openv/netbackup/bin/admincmd/bperror -media -hoursago 72 -verbose -U >/tmp/bperror_media.txt

/usr/openv/netbackup/bin/admincmd/bperror -tape -hoursago 72 -verbose -U >/tmp/bperror_tape.txt

3、磁带立即过期

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpexpdate -m media_id -d 0

4、查看所有磁带使用情况，条形码为media id

nbumaster:~ # /usr/openv/netbackup/bin/goodies/available_media

5、查看磁带过期时间

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpmedialist -U

6、查看nbu的版本

nbumaster:~ # cat /usr/openv/netbackup/version

HARDWARE LINUX_SUSE_X86

VERSION NetBackup 7.0.0

RELEASEDATE Thu Jul 08 01:22:07 CDT 2010

BUILDNUMBER 20100707

或

nbumaster:~ # more /usr/openv/netbackup/bin/version

NetBackup-SuSE2.6.16 7.0.1

7、查看驱动器的状态，是否处于正常的TLD状态还是ACTIVE，或者不正常的AVR状态

nbumaster:~ # /usr/openv/volmgr/bin/vmoprcmd

8、查看驱动器是否需要清洗

nbumaster:~ # /usr/openv/volmgr/bin/tpclean -L

Drive Name Type Mount Time Frequency Last Cleaned Comment

********** **** ********** ********* **************** *******

HP.ULTRIUM4-SCSI.000 hcart* 4231.6 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.001 hcart* 798.4 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.002 hcart* 645.0 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.003 hcart* 642.3 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.004 hcart* 2340.8 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.005 hcart* 646.2 0 N/A NEEDS CLEANING

HP.ULTRIUM4-SCSI.006 hcart* 14.9 0 N/A

HP.ULTRIUM4-SCSI.007 hcart* 17.4 0 N/A

HP.ULTRIUM4-SCSI.008 hcart* 10.0 0 N/A

HP.ULTRIUM4-SCSI.009 hcart* 22.1 0 N/A

9、扫描本机所有的机械手和驱动器

nbumaster:~ #/usr/openv/volmgr/bin/scan

************************************************************

*********************** SDT_TAPE ************************

*********************** SDT_CHANGER ************************

************************************************************

------------------------------------------------------------

Device Name : "/dev/sg30" //机械手

Passthru Name: "/dev/sg30"

Volume Header: ""

Port: -1Bus: -1Target: -1LUN: -1

Inquiry : "ADIC Scalar i2000 650Q"

Vendor ID : "ADIC "

Product ID : "Scalar i2000 "

Product Rev: "650Q"

Serial Number: "ADIC273100135_LL0"

WWN : ""

WWN Id Type : 0

Device Identifier: "ADIC 273100135_LL0 "

Device Type : SDT_CHANGER //机械手

NetBackup Robot Type: 8

Removable : Yes

Device Supports: SCSI-3

Number of Drives : 10

Number of Slots : 684

Number of Media Access Ports: 24 //10个驱动器

Drive 1 Serial Number : "HU10159TD2"

Drive 2 Serial Number : "HU10109851"

Drive 3 Serial Number : "HU10159TC8"

Drive 4 Serial Number : "HU10038GVG"

Drive 5 Serial Number : "HU10109839"

Drive 6 Serial Number : "HU101098DU"

Drive 7 Serial Number : "HU10159TCV"

Drive 8 Serial Number : "HU1010983B"

Drive 9 Serial Number : "MXP1226LMC"

Drive 10 Serial Number : "HU10159TAP"

10、手动尝试抓取机械手，可验证机械手是否正常，该操作可在nbu服务未启动时候就可执行

以下表明机械手找不到

nbumaster:/usr/openv/volmgr/misc # /usr/openv/volmgr/bin/robtest

Configured robots with local control supporting test utilities:

TLD(0) robotic path = /dev/sg8

Robot Selection

---------------

1) TLD 0

2) none/quit

Enter choice: 1

Robot selected: TLD(0) robotic path = /dev/sg8

Invoking robotic test utility:

/usr/openv/volmgr/bin/tldtest -rn 0 -r /dev/sg8

Opening /dev/sg8

Error opening /dev/sg8, No such device or address

Robotic test utility /usr/openv/volmgr/bin/tldtest

returned abnormal exit status (1).

11、查看磁带驱动器及robot(机械手)细节情况

nbumaster:~ # /usr/openv/volmgr/bin/tpconfig -d 亦可使用tpconfig -dl或tpconfig -l，显示的信息是不一样的

Id DriveName Type Residence

Drive Path Status

****************************************************************************

0 HP.ULTRIUM4-SCSI.000 hcart TLD(0) DRIVE=10

/dev/nst5 UP

1 HP.ULTRIUM4-SCSI.001 hcart TLD(0) DRIVE=9

/dev/nst6 UP

2 HP.ULTRIUM4-SCSI.002 hcart TLD(0) DRIVE=8

/dev/nst9 UP

Currently defined robotics are:

TLD(0) robotic path = /dev/sg30

EMM Server = nbumaster

可使用如下命令查看驱动器和机械手的相关信息

(Display device configuration)

tpconfig -d

tpconfig -dl

tpconfig -l

另/usr/openv/volmgr/bin/tpconfig 提供add ,delete,list NBU可以识别并使用的物理设备，如

机械手/dev/sg30的符号在操作系统更改后，可通过tpconfig来进行更改

12、查看nbu进程情况，一般使用bpps -x

nbumaster:~ # /usr/openv/netbackup/bin/bpps -列出nbu服务运行的进程

-a 在列表中包括介质管理器进程

-x 在列表中包括介质管理器进程和其他共享进程

13、查看操作系统是否认识到机械手

nbumaster:~ # cat /proc/scsi/scsi 可搜索关键字Medium

Host: scsi1 Channel: 00 Id: 01 Lun: 02

Vendor: ADIC Model: Scalar i2000 Rev: 605A

Type: Medium Changer ANSI SCSI revision: 03

lsscsi和cat /proc/scsi/scsi其实是一样的

nbumaster:~ # lsscsi

[0:0:0:0] disk SEAGATE ST9146803SS FS62 -

[0:0:1:0] disk SEAGATE ST9146803SS FS62 -

[0:1:2:0] disk LSILOGIC Logical Volume 3000 /dev/sda

[1:0:0:0] storage QUANTUM Scalar i6000 650Q -

[1:0:0:2] mediumx ADIC Scalar i2000 650Q -

14、如何重启nbu服务

正常情况只需要

nbumaster:~ # /usr/openv/netbackup/bin/bp.kill_all

nbumaster:~ # /usr/openv/netbackup/bin/bpps -x

nbumaster:~ # /usr/openv/netbackup/bin/bp.start_all

如果以上重启nbu方式不行，则采用如下方式

How to restart services

On NetBackup Master Server

1) Stop the NetBackup Services.

nbumaster:~ # /usr/openv/netbackup/bin/bp.kill_all

If the NetBackup services did not stop completely,please stop the process by using the kill command.

nbumaster:~ # /usr/openv/netbackup/bin/bpps -x

Remove cache files

nbumaster:~ # cd /usr/openv/var

nbumaster:~ # ls -lh

nbumaster:~ # rm /usr/openv/var/*.ior

nbumaster:~ # rm /usr/openv/var/*.ior.mgr

nbumaster:~ # cd /usr/openv/volmgr/misc 若有lock文件，可删除

nbumaster:~ # ls -lh

2)stop vxpbx services.

nbumaster:~ # /opt/VRTSpbx/bin/vxpbx_exchanged stop

On NetBackup Master Server

1) start the vxpbx Services.

nbumaster:~ # /opt/VRTSpbx/bin/vxpbx_exchanged start

2) art the NetBackup Services.

nbumaster:~ # /usr/openv/netbackup/bin/bp.start_all

15、cannot connect to robotic software daemon报错

这个错误是因为nbu在关闭的时候某些LOCK文件没有被完全删除造成的，可以使用下面的步骤重启后解决

A. Shut down all the VERITAS NetBackup (tm) daemons:

#/usr/openv/netbackup/bin/goodies/netbackup stop

B. Verify all NetBackup daemons are down by running the command:

#/usr/openv/netbackup/bin/bpps –a

Do not proceed until all NetBackup processes are down. (Remember to exit from the GUI interface.)if remain process if JAVA REF. you can use the “kill -9” command to kill them.

C. cd /usr/openv/volmgr/misc/

D. Delete the lock files (*lock*) that exist in this directory

E. Restart the NetBackup daemons:

#/usr/openv/netbackup/bin/goodies/netbackup start

16、bpexpdate过期磁带，报”requested media id is in use”错误解决办法

如果你确认这个media并没有在使用，可以手工释放这个media占用的资源

首先使用/usr/openv/netbackup/bin/admincmd/nbrbutil -dump命令得到磁带占用资源的id

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump

Allocation Requests

(AllocationRequestSeq )

MDS allocations in EMM:

MdsAllocation: allocationKey=91666 jobType=1 mediaKey=4000261 mediaId=YZ5350 driveKey=2000012 driveName=HP.ULTRIUM4-SCSI.004 drivePath=/dev/nst0 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1

MdsAllocation: allocationKey=91667 jobType=1 mediaKey=4000264 mediaId=YZ5353 driveKey=2000008 driveName=HP.ULTRIUM4-SCSI.000 drivePath=/dev/nst5 stuName=nbumaster-hcart-robot-tld-0 masterServerName=nbumaster mediaServerName=nbumaster ndmpTapeServerName= diskVolumeKey=0 mountKey=0 linkKey=0 fatPipeKey=0 scsiResType=1 serverStateFlags=1

nbumaster:~ #

然后使用/usr/openv/netbackup/bin/admincmd/nbrbutil –releaseMDS 即上面的“allocationKey=”后面相应的数值，来释放资源

这样我们便能成功执行bpexpdate命令

17、查询目前有哪些磁带正在被哪个驱动器调用，以及正在运行哪些备份任务

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/nbrbutil -dump

18、列出所有的job的明细

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs

将bpdbjobs输出到/tmp/bpdbjobs.txt文件中

bpdbjobs -file /tmp/bpdbjobs.txt

列出所有作业的摘要,可查看目前正处于ACTIVE的任务有多少个

nbumaster:~ # /usr/openv/netbackup/bin/admincmd/bpdbjobs -summary

MASTER SERVER QUEUED REQUEUED ACTIVE SUCCESS PARTSUCC FAILED INCOMP SUSP WAITING_RETRY TOTAL

nbumaster 0 0 5 1320 0 43 0 0 0 1368

仅供参考

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/502832.html

两台服务器手动部署大数据平台

发表评论

评论列表（0条）