配置Impala

更改配置文件

  1. 删除fe/src/test/resources目录下的文件,并将集群的配置文件到此目录,至少包括hdfs-site.xml、core-site.xml和hive-site.xml等文件。(这是impala-config.sh文件中设置的Hadoop配置文件目录,可以修改指向其他位置)

  2. 检查core-site.xml中检查需要声明fs.defaultFS属性,并指向正确地址,一般为HDFS文件系统URL:

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://ip-172-31-20-161.ap-northeast-2.compute.internal:8020</value>
</property>
  1. 检查在hdfs-site.xmldfs.client.read.shortcircuite属性被启用。
<property>
  <name>dfs.client.read.shortcircuit</name>
  <value>true</value>
</property>

注:其他属性需要和集群的设置相符,如dfs.client.read.shortcircuit.skip.checksum等。

  1. hive-site.xml中,至少需要Hive Metadata Server的Thrift接口地址hive.metastore.uris,样例文件如下:
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://ip-172-31-20-161.ap-northeast-2.compute.internal:9083</value>
  </property>
</configuration>

启动测试集群

使用bin/目录下的start-impala-cluster.sh脚本可以在本机启动一个小型的Impala集群,包括一个Catalog服务,一个StateStore服务和三个Impala服务进程(数目可配置,见下)。

bin/start-impala-cluster.sh

如需停止集群,运行

bin/start-impala-cluster.sh --kill

如需强制停止所有服务,运行

bin/start-impala-cluster.sh --force_kill

start-impala-cluster.sh命令行还支持其他的一些配置:

参数 类型 说明 缺省值
-s或--cluster_size 整数 集群大小,即启动的impalad服务个数 3
--build_type 枚举 使用的编译类型,可以是debug、release或者latest latest
--impalad_args 字符串 impalad附加启动参数
--state_store_args 字符串 statestord附加启动参数
--catalogd_args 字符串 catalogd附加启动参数
-r或--restart_impalad_only 开关 只重启impalad进程
--in-process 开关 将所有Impala后端以及state store服务在一个进程中启动
--log_dir 目录 日志目录 系统参数IMPALA_CLUSTER_LOGS_DIR
--max_log_files 整数 能保留的日志文件个数 系统参数IMPALA_MAX_LOG_FILES,若未设置,则设为10
-v或--verbose 开关 是否将所有输出打印到stderr/stdout终端
--wait_for_cluster 开关 等待集群就绪
--log_level 整数 设置impalad后段日志记录等级 1
--jvm_args 字符串 启动JVM的附加参数
--kudu_masters 列表 Kudu的Master节点,可以声明多个,用分号间隔

results matching ""

    No results matching ""