计费问题_数据仓库服务 GaussDB(DWS)_常见问题_华为云

(1)

常见问题

文档版本 38

发布日期 2022-01-17

(2)

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

(3)

1 ^通用问题

1.1 什么是数据仓库？

数据仓库是一种用来存储和分析结构化数据的特殊类型的数据库。数据仓库擅长对来自不同来源的数据进行聚合和关联，从而发掘出数据中隐藏的商业价值。在企业的经营决策，商业信息分析等领域都起着至关重要的作用。

随着数据库技术和分布式技术的长足发展，数据仓库也朝着分布式数据库的架构演进。目前比较流行的分布式数据仓库架构是MPP（Massive-Parallel Processing）架构。MPP架构特性如下：

● MPP架构的数据仓库一般由多个对等的数据计算节点构成。

● MPP架构的数据仓库中的数据被按照某种规则近乎均匀地分配到每一个计算节点上。

● 每个计算节点都独立拥有其计算资源（CPU/内存等）和被分配的数据。

● 节点之间不存在任何共享的计算资源或数据，因此也被称为无共享(shared- nothing)架构系统。

● MPP数据仓库为客户的应用提供统一的计算入口，上层应用并不感知数据仓库内部的集群节点规模和数据分片情况，做到了数据分库分表的透明。

● MPP架构主要的特点就是查询任务可以在所有的计算节点上被并行地执行，可以更加快速地返回计算的结果。每一个查询任务都会被平均地分配到所有的计算节点上并行地执行，这大大缩短了查询所需要的时间。

● MPP架构可以通过简单地增加或减少计算节点数达到改变系统容量的目的，以应付更加灵活的现代企业计算的需要。

基于MPP架构的新一代数据仓库，普遍具有性能出众，兼容性好（针对底层的硬件和上层的应用），扩展性强，成本可控等显著特点，因而近年来越来越受到广大企业用户的青睐。

您可以将PostgreSQL数据迁移到GaussDB(DWS) 集群。 GaussDB(DWS) 集群是 OLAP场景的数据库，PostgreSQL是OLTP场景的独立数据库。因此，不支持将 GaussDB(DWS) 数据库迁移到PostgreSQL。

(8)

1.2 数据仓库内核 gaussdb 是自研吗？

是，GaussDB(DWS) 数据仓库内核gaussdb是华为自主研发的数据库。

GaussDB(DWS) 兼容PostgreSQL 9.2.4的数据库内核引擎，为企业级MPP（大规模并行处理）架构的OLAP分布式数据库，其主要面向海量数据分析场景。

1.3 为什么要使用数据仓库？

现状和需求

大量的企业经营性数据（订单，库存，原料，付款等）在企业的业务运营系统以及其后台的(事务型)数据库中产生的。

企业的决策者需要及时地对这些数据进行归类分析，从中获得企业运营的各种业务特征，为下一步的经营决策提供数据支撑。

困难

对数据的归类分析往往涉及到对多张数据库表数据的同时访问，即需要同时锁住多张可能正在被不同事务更新的表单。这对业务繁忙的数据库系统来说可能是一件非常困难的事情。

● 一方面很难把多张表同时锁住，造成复杂查询的时延增加。

● 另一方面如果锁住了多张表，又会阻挡数据库表单更新的事务，造成业务的延时甚至中断。

解决方案

数据仓库主要适用于企业数据的关联和聚合等分析场景，并从中发掘出数据背后的商业信息供决策者参考。这里的数据发掘主要指涉及多张表的大范围的数据聚合和关联的复杂查询。

使用数据仓库，通过某个数据转换（ETL）的过程，业务运营数据库的数据可以被拷贝到数据仓库中供分析计算使用。同时支持把多个业务运营系统的数据汇集到一个数据仓库中。这样数据可以被更好地关联和分析，从而产生更大的价值。

数据仓库一般来说采用了一些和标准的面向事务的数据库(Oracle，MS SQL Server，

MySQL等)不一样的设计，特别是针对数据的聚合性和关联性做了特别的优化，有些时候为了这些优化甚至可能会牺牲掉一些标准数据库的事务或者数据增删改的功能或者性能。因此，数据仓库和数据库的使用场景还是有所不同的。事务型数据库专注于事务处理（企业的业务运营），而数据仓库更擅长于复杂的数据分析。各司其职，互不干扰。简单一句话可以把它理解为，数据库主要负责数据更新，数据仓库主要负责数据分析。

1.4 数据仓库适合哪些场合使用？

商业智能系统，数据仪表盘，探索式和交互式数据分析，批量数据处理等都是数据仓库的强项。

(9)

商业智能系统

商业智能系统也就是一般所指的BI系统。数据仓库普遍的使用场景就是和商业智能系统配合使用。商业智能支持企业用户的商业决策，从日常运营到远期战略规划。一般通过处理大量的数据帮助企业用户识别新的经营机会，构建市场竞争力。企业用户通过商业智能系统收集整理商业数据，实现数据的分析，展示和传播，进而影响商业决策。商业智能系统可以提供历史的，当前的和预测的企业运营数据，通过包括报表展示，数据分析，数据发掘，预测分析，绩效指标，基线考核等核心技术和手段，通过挖掘数据的内在价值，帮助用户实现既定的商业目标。

数据仪表盘

数据仪表盘是一种用来显示企业的当前关键绩效指标(KPI)的数据可视化工具。仪表盘通常会把多个关键绩效指标和相关图表汇总到一块展示，是一种向经营决策者快速传递当前经营状况的有效手段。通常情况下，仪表盘上图表使用的数据都是从数据仓库当中通过查询实时提取出来的。很多商业智能系统都在一定程度上提供仪表盘的功能。

探索式和交互式数据分析

探索式数据分析是一种用来分析总结数据特征属性的方法，一般来说都是和数据可视化结合在一起发挥作用。数据探索人员可以预先假设一个数据模型，然后用统计的方法去验证或发现待探索的数据是否符合该模型或者假设。如果该假设成立，那么在此基础上再去检验新的数据集或者进一步提炼假设的模型，让其更接近最终的分析结果。探索式数据分析是一个对假设的结果进行验证和收敛的过程。探索式数据处理被广泛地应用在金融，保险，互联网，社科，医疗，制药等行业，是数据科学家和工程师的好帮手。

批量数据处理

批量数据处理是处理周期性产生的大规模数据的一种有效途径。在很多业务系统中，

周期性的（小时，天，周）数据会被生产，搬迁，聚合，关联，通过多个步骤产生最终的数据结果集。批量数据处理一般需要动用多个数据处理脚本或任务协同工作，一般都具备容错和重启的功能。企业经营指标的日报表或月报表一般都是由批量数据处理系统产生的。批量数据处理系统一般对计算资源要求较多，对响应时延的要求较低，一般都选择在业务系统不那么繁忙的夜间运行。

在数据时代，数据仓库的应用范围也更加的宽广。通过数据快速灵活地调整商业决策也越来越受到广大企业用户的认可，并把它应用到自己的生产服务过程当中。我们每天都在使用的手机应用，贷款消费，以及交通路况，社保医疗，政府服务等方方面面，后台都可能有数据仓库的相关技术在做支撑。可以说，数据仓库技术正在静静地改变着我们的生产生活。

1.5 数据仓库和 Hadoop 大数据平台有什么差别？

广义上来说，Hadoop大数据平台也可以看做是新一代的数据仓库系统，它也具有很多现代数据仓库的特征，也被企业所广泛使用。因为MPP架构的可扩展性，基于MPP 的数据仓库系统有时候也被划分到大数据平台类产品。

但是数据仓库和Hadoop平台还是有很多显著的不同。针对不同的使用场景其发挥的作用和给用户带来的体验也不尽相同。用户可以根据下表简单判断什么场景更适合用什么样的产品。

(10)

表1-1 数据仓库和 Hadoop 大数据平台特性比较

特性 Hadoop Data Warehouse

计算节点数可到数千个一般在256个以内

数据量支持大于10PB 一般不大于10PB 数据类型关系型，半关系型，无结构

化，语音，图像，视频

关系型

时延中/高低

应用生态创新型/人工智能传统数据库型/BI类应用开发接口 SQL，MR，丰富的编程语言接

口标准数据库SQL

可扩展性无穷的可能，完整的编程接口有限扩展能力，主要通过UDF支持

事务支持有限完整

数据仓库和Hadoop平台互为补充，立足于满足客户在不同使用场景下的业务需求。公有云数据仓库服务GaussDB(DWS) 能够无缝地接入到公有云Hadoop平台MRS服务上，支持SQL-over-Hadoop的这个特性，提供跨平台，跨服务的数据共享。让用户在充分享受Hadoop带来的开放，便捷，创新的同时，继续使用熟悉的数据仓库方式管理和使用自己的海量数据。继续使用传统的数据仓库的上层应用，特别是商业智能BI类的应用。

1.6 为什么要使用公有云数据仓库服务 GaussDB(DWS) ？

传统的数据仓库售价昂贵，设备系统选型，采购周期长，扩容复杂，整体运行成本十分高昂，因此很难为中小企业所采纳。

公有云数据仓库服务GaussDB(DWS) 与传统的数据仓库相比，主要有以下特点与显著优势：

● 一款分布式MPP数据仓库云化服务，具备开放，高效，兼容，可扩展，易运维等特点。

● 基于FusionInsight LibrA数据仓库产品内核，以云上数据仓库服务的形式将 FusionInsight LibrA的能力提供给公有云上的企业用户，打造云上云下一致的数据仓库用户体验。

FusionInsight LibrA是具有国产自主知识产权的新一代分布式数据仓库系统。目前已经被广泛地应用在国内外政府，金融，运营商等行业和财富500强企业当中。该产品不仅兼容主流开源Postgres系列数据库，而且特别针对Oracle和Teradata的 SQL语法进行了兼容性增强，在很多场合都可以替代国外同类型产品。我们的数据仓库服务工程师重点设计实现了基于行列混存的数据仓库内核，在支持海量数据快速分析的同时也很好地兼顾了业务运作系统对数据增删改的需求。引入了基于代价的查询优化器，以及当前数据仓库系统所流行的一些黑科技，包括机器码级别的向量计算，算子间和算子内的并行，节点内和节点间并行，使用LLVM优化编译查询计划的本机代码等。这些黑科技极大地提高了数据查询和分析的性能，

为用户带来了更好的体验，解决了特定场景当中的业务痛点。

(11)

● GaussDB(DWS) 服务即开即用

相比以前动辄长达数月的数据仓库选型采购过程，在公有云上开通使用数据仓库服务只需要数分钟时间简化了企业用户的购买过程，使用数据仓库的方式，降低使用数据仓库的代价和门槛，让数据仓库实实在在地走进千万家大中小企业，让数据为企业的发展和决策提供其应有的价值。

1.7 数据仓库服务的优势有哪些？

数据仓库服务可通过web管理控制台，让用户自助完成创建数据仓库与管理维护，系统可用性高：

● 快速部署

在GaussDB(DWS) 管理页面中可以方便的创建集群，即开即用。

● 便捷管理

有完善的性能监控体系和多重安全防护措施，是专业、高性能的分析型数据库管理平台。

● 架构兼容性

采用Share-nothing架构的MPP系统，支持SQL 92、SQL 2003标准，具备完备的事务处理能力，提供标准的JDBC、ODBC和gsql等多种客户端工具，并兼容 Postgres生态。

1.8 如何选择公有云 GaussDB(DWS) 或者公有云 RDS？

公有云GaussDB(DWS) 和公有云RDS都让您能够在云中运行传统的关系数据库，同时转移数据库管理负载。您可将RDS数据库用于联机事务处理 (OLTP) ，报告和分析，对于大量数据的读（一般是复杂的只读类型查询）支持不足。GaussDB(DWS) 利用多节点的规模和资源并使用各种优化法（列存，向量引擎，分布式框架等），专注于联机分析处理（OLAP），为传统数据库对大型数据集的分析及报告工作负荷提供了数量级改善。

当您的数据及查询的复杂性增加时，或者在您要防止报告和分析处理对OLTP工作负荷造成干扰时，GaussDB(DWS) 可提供横向扩展能力。

您可以根据下表简单判断什么场景更适合用GaussDB(DWS) 或RDS。

表1-2 OLTP 和 OLAP 特性比较

特性 OLTP OLAP

用户操作人员，低层管理人员决策人员，高级管理人员

功能日常操作处理分析决策

设计面向应用面向主题

数据最新的，细节的，二维的，分立的历史的，集成的，多维的，统一的

存取读/写数十条记录读上百万条记录

工作范围简单的读写复杂的查询

(12)

特性 OLTP OLAP

数据库大小百GB TB-PB级别

1.9 GaussDB(DWS) 和 MRS 分别应在何时使用？

如果需要使用自定义代码通过大数据处理框架 (如Apache Spark、Hadoop或HBase) 来处理和分析超大数据集，则应该使用MRS。MRS让您能够控制集群的配置和集群上安装的软件。

GaussDB(DWS) 这类数据仓库是专为不同类型的分析而设计的。数据仓库旨在将来自多个不同来源 (如库存、财务和零售销售系统) 的数据汇集在一起。为了确保整个公司的报告具有一致的准确性，数据仓库采用一种高度结构化的方式来存储数据。这种结构可将数据一致性规则直接构建到数据库的表中。同时对标准SQL，事务支持传统数据库语法有很好的兼容性。

当您需要对大量结构化数据执行复杂查询并获得超快性能时，GaussDB(DWS) 就是理想的服务选择。

1.10 GaussDB(DWS) SQL on OBS 能否取代 MRS？

不能。尽管GaussDB(DWS) SQL on OBS非常适用于对GaussDB(DWS) 和OBS中的数据运行查询，但它并不适合企业通常需要使用MRS之类的处理框架进行处理的使用场景。

MRS的功能不止于运行SQL查询。公有云MRS是一种托管服务，让您可以使用最新版本的常用大数据处理框架 (如Spark、Hadoop、Hbase) 在可定制的群集上处理和分析大数据集。借助公有云MRS，您可以为机器学习、图形分析、数据转换、流式处理数据以及您可以编写代码的几乎任何应用程序运行各种横向扩展的数据处理任务。您还可以将GaussDB(DWS) SQL on OBS与MRS配合使用。如果您已经在使用MRS处理大型数据存储，则可同时使用GaussDB(DWS) SQL on OBS来查询这些数据，而不会影响MRS任务。

查询服务、数据仓库和复杂的数据处理框架都各得其所，分别用于不同的领域。您只需要为任务挑选适当的工具即可。

1.11 GaussDB(DWS) 与 Hive 在功能上有哪些差别？

GaussDB(DWS) 与Hive在功能上存在一定的差异，主要体现在以下几个方面：

1. Hive是基于Hadoop MapReduce的数据仓库，GaussDB(DWS) 是基于Postgres的 MPP的数据仓库。

2. Hive的数据在HDFS中存储，GaussDB(DWS) 的数据可以在本地存储，也可以通过外表的形式通过OBS进行存储。

3. Hive不支持索引，GaussDB(DWS) 支持索引，所以查询速度GaussDB(DWS) 更快。

4. Hive不支持存储过程，GaussDB(DWS) 支持存储过程，使用场景更广泛。

5. GaussDB(DWS) 比Hive对SQL的支持更丰富，包括函数、自定义函数、存储过程。

(13)

6. Hive不支持事务，GaussDB(DWS) 支持完整事务。

7. 在数据可靠性方面，Hive和GaussDB(DWS) 均支持副本，可靠性基本一致。

8. 在性能上，GaussDB(DWS) 极大地优于Hive。

GaussDB(DWS) 和Hive基于各自的功能特点，在应用场景上，Hive仅用于离线分析场景，GaussDB(DWS) 适用于在线分析场景及AD-Hoc（即席查询）场景。

1.12 什么是用户配额？

华为云服务对用户的资源数量和容量做了限制。如果资源配额限制满足不了用户的使用需求，可以通过工单系统来提交您的申请，并告知您申请提高配额的理由。在通过我们的审理之后，我们会更新您的配额并进行通知。关于配额的具体操作说明，请参见关于配额。

1.13 用户和角色是什么关系？

用户和角色在整个集群范围内是共享的，但是其数据并不共享。即用户可以连接任何数据库，但当连接成功后，任何用户都只能访问连接请求里声明的那个数据库。

● 角色（ROLE）本质上是一组权限的集合，通常情况下使用ROLE来组织权限，使用用户进行权限的管理和业务操作。

● 角色之间的权限可以继承，用户组的所有用户可自动继承对应角色的权限。

● 数据库中USER与ROLE的关系为：USER的权限来自于ROLE。

● 用户组包含了具有相同权限的用户集合。

● 用户可以看作是具有登录权限的角色。

● 角色可以看作是没有登录权限的用户。

Gauss(DWS)提供的权限包括“管控面”各组件的操作维护权限，在实际应用时需根据业务场景为各用户分别配置不同权限。为了提升权限管理的易用性，“管控面”引入角色的功能，通过选取指定的权限并统一授予角色，以权限集合的形式实现了权限集中查看和管理。

集中权限管理中权限、角色和用户的关系如下图所示。

(14)

DWS提供多种权限，根据业务场景实际需要选择指定的权限授予不同角色，可能是一个或者多个权限对应一个角色。

通过GRANT把角色授予用户后，用户即具有了角色的所有权限。推荐使用角色进行高效权限分配。只对自己的表有所有权限，对其他用户放在属于各自模式下的表无权限。

● 角色A：授予操作权限A和B，用户A和用户B通过分配角色A取得对应的权限。

● 角色B：授予操作权限C，用户C通过分配角色B取得对应的权限。

● 角色C：授予操作权限D和E，用户C通过分配角色C取得对应的权限。

1.14 如何查看用户创建时间，需要用到哪个视图或语法

PG_USER视图提供了访问数据库用户的信息。

其中valbegin和valuntil表示有效开始时间和有效结束时间，如果没有设置则为 NULL。

ALTER USER语法提供了修改数据库用户的方法。

以下示例提供了查询用户以及修改时间的方法。

1. 使用Data Studio连接到GaussDB(DWS)集群。

2. 通过查询视图PG_USER查看用户列表。

SELECT * FROM pg_user;

(15)

3. 由于所有时间都为NULL，执行如下命令修改用户joe和leo的开始时间和结束时间。alter user joe valid begin '2012-02-02';

alter user joe valid until '2021-01-01';

alter user leo valid begin '2013-02-02 13:12:12';

alter user leo valid until '2021-05-01 13:12:12';

4. 再次执行查询视图命令，结果如下所示。

1.15 区域和可用区

什么是区域、可用区？

我们用区域和可用区来描述数据中心的位置，您可以在特定的区域、可用区创建资源。

● 区域（Region）：从地理位置和网络时延维度划分，同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region，通用Region指面向公共租户提供通用云服务的 Region；专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用 Region。

● 可用区（AZ，Availability Zone）：一个AZ是一个或多个物理数据中心的集合，

有独立的风火水电，AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。

一个Region中的多个AZ间通过高速光纤相连，以满足用户跨AZ构建高可用性系统的需求。

图1-1阐明了区域和可用区之间的关系。

图1-1 区域和可用区

(16)

目前，华为云已在全球多个地域开放云服务，您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。

如何选择区域？

选择区域时，您需要考虑以下几个因素：

● 地理位置

一般情况下，建议就近选择靠近您或者您的目标用户的区域，这样可以减少网络时延，提高访问速度。不过，在基础设施、BGP网络品质、资源的操作与配置等方面，中国大陆各个区域间区别不大，如果您或者您的目标用户在中国大陆，可以不用考虑不同区域造成的网络时延问题。

香港、曼谷等其他地区和国家提供国际带宽，主要面向非中国大陆地区的用户。

如果您或者您的目标用户在中国大陆，使用这些区域会有较长的访问时延，不建议使用。

– 在除中国大陆以外的亚太地区有业务的用户，可以选择“亚太-曼谷”或“亚太-新加坡”区域。

– 在非洲地区有业务的用户，可以选择“南非-约翰内斯堡”区域。

– 在欧洲地区有业务的用户，可以选择“欧洲-巴黎”区域。

● 资源的价格

不同区域的资源价格可能有差异，请参见华为云服务价格详情。

如何选择可用区？

是否将资源放在同一可用区内，主要取决于您对容灾能力和网络时延的要求。

● 如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。

● 如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。

区域和终端节点

当您通过API使用资源时，您必须指定其区域终端节点。有关华为云的区域和终端节点的更多信息，请参阅地区和终端节点。

1.16 数据在数据仓库服务中是否安全？

安全。在大数据时代，数据是用户的核心资产。公有云将继续秉承多年来向社会做出的“上不碰应用，下不碰数据”的承诺，保证用户核心资产的安全。这是我们对用户和社会的承诺，也是公有云及其伙伴商业成功的保障和基石。

我们的数据仓库服务工程师对整个数据仓库系统进行了电信系统级别的安全增强，大量地采用了多年来在电信行业里积累的各种经验和知识，特别是针对数据安全，用户隐私方面的技术和专利。因此，公有云数据仓库服务是一款符合电信级质量要求的产品，满足各级政府，金融机构，电信运营商对数据安全和用户隐私的要求，并在以上各行业被广泛地被使用。公有云数据仓库服务还获得了如下安全认证：

● 网络安全实验室ICSL的认证：该认证是遵从英国当局颁布的网络安全标准设立的。

(17)

● 隐私和安全管理当局PSA的官方认证：该认证满足欧盟对数据安全和隐私的要求。

业务数据安全

数据仓库服务构建在公有云的基础软件设施之上，包括云主机弹性云服务器和对象存储服务OBS。弹性云服务器和OBS服务2017年双双通过了中国数据中心联盟的可信云认证。

GaussDB(DWS) 用户的业务数据是直接存放在集群的云主机当中，集群的云主机对 GaussDB(DWS) 用户本身不可见，只向用户提供数据仓库访问服务，用户以及公有云的运维管理员均无法登录GaussDB(DWS) 集群云主机进行操作。

GaussDB(DWS) 集群云主机操作系统进行了严格的安全加固，包括内核安全加固，系统最新补丁，权限控制，端口管理，协议与端口防攻击等。

GaussDB(DWS) 提供完整的密码策略、身份认证、会话管理、用户权限管理和数据库审计等安全措施。

快照数据安全

GaussDB(DWS) 的备份数据是以快照的形式存储在OBS上。OBS已通过中国数据中心联盟的可信云安全认证。OBS上的数据支持访问权限控制，密匙访问，数据加密。

GaussDB(DWS) 的快照数据仅用于数据的备份和恢复，无法被外界任何用户访问操作，包括GaussDB(DWS) 用户本身。GaussDB(DWS) 管理员可以通过

GaussDB(DWS) Console的快照管理和公有云账单看到快照数据在OBS的空间使用情况。

网络访问安全

GaussDB(DWS) 的如下网络安全部署设计使租户之间实现100%的二三层网络隔离，

满足政务，金融用户的高等级安全隔离需要。

● GaussDB(DWS) 部署在租户专属的云主机环境中，不和任何其他租户共享，从物理上隔绝了数据因为计算资源共享而被泄露的可能性。

● GaussDB(DWS) 集群的虚拟机通过虚拟私有云隔离，避免被其他租户发现和入侵。

● 网络划分为业务平面和管理平面，两个平面采用物理隔离的方式进行部署，保证业务、管理各自网络的安全性。

● 安全组规则保护，租户可以通过自定义安全组的功能，配置安全域的访问规则，

提供灵活的网络安全性配置。

● 外部应用软件访问数据仓库服务支持SSL网络安全协议。

● 支持数据从OBS导入的加密传输。

1.17 数据仓库使用哪些安全防护？

数据仓库服务使用IAM和虚拟私有云来控制用户、集群的网络安全隔离。用户对集群的访问则采用了SSL安全连接和安全算法套件，支持双向数字证书认证。

同时在每个集群中对节点的操作系统进行安全加固，仅允许合法地访问操作系统文件，提高数据安全性。

(18)

1.18 可以修改 GaussDB(DWS) 集群的安全组吗？

可以修改当前安全组。GaussDB(DWS) 集群一旦创建成功，其安全组将不能更改为其他安全组，但是您可以编辑和修改当前的安全组，在当前的安全组中添加、删除或修改安全组规则。

您可以通过如下步骤编辑集群的安全组：

1. 登录GaussDB(DWS) 管理控制台。

2. 在左侧导航树，单击“集群管理”。

3. 在集群列表中找到所需要的集群，然后单击集群名称。

4. 在集群的“基本信息”页面中，找到“安全组”参数，单击安全组名称进入安全组详情页面，您可以对安全组进行设置。

1.19 LibrA、GaussDB A 与 GaussDB(DWS) 是什么关系？

GaussDB(DWS) 是一种在线数据处理数据库，是华为自研的GaussDB A（原名

FusionInsight LibrA）产品在云上基于公有云基础架构和平台构建而成的。而GaussDB A为物理机的纯软件销售形态，GaussDB A相关文档可访问以下网址获取：

● 6.5.1及以前版本：https://support.huawei.com/enterprise/zh/cloud-

computing/gaussdb-200-pid-21407429

● 8.0.0版本：https://support.huawei.com/enterprise/zh/cloud-computing/

gaussdb-a-pid-250949677

1.20 数据库、数据仓库、数据湖、湖仓一体分别是什么？

如今随着互联网以及物联网等技术的不断发展，越来越多的数据被生产出来，数据管理工具也得到了飞速的发展，大数据相关概念如雨后春笋一般应运而生，如从数据库、数据仓库、数据湖、湖仓一体等。这些概念分别指的是什么，又有着怎样的联系，同时，华为对应的产品与方案又是什么呢？本文将一一进行对比介绍。

什么是数据库？

数据库是“按照数据结构来组织、存储和管理数据的仓库”。

广义上的数据库，在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的，且数据和程序之间具备非常强的依赖性，应用较为有限。

现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，具有结构化程度高，独立性强，冗余度低等优点。1970年关系型数据库的诞生，真正彻底把软件中的数据和程序分开来，成为主流计算机系统不可或缺的组成部分。关系型数据库已经成为目前数据库产品中最重要的一员，几乎所有的数据库厂商新出的数据库产品都支持关系型数据库，即使一些非关系数据库产品也几乎都有支持关系数据库的接口。

关系型数据库的主要用于联机事务处理OLTP（On-Line Transaction Processing）主要进行基本的、日常的事务处理，例如银行交易等场景。

(19)

什么是数据仓库？

随着数据库的大规模应用，使信息行业的数据爆炸式的增长。为了研究数据之间的关系，挖掘数据隐藏的价值，人们越来越多的需要使用联机分析处理OLAP（On-Line Analytical Processing）进行数据分析，探究一些深层次的关系和信息。但是不同的数据库之间很难做到数据共享，数据之间的集成与分析也存在非常大的挑战。

为解决企业的数据集成与分析问题，数据仓库之父比尔·恩门于1990年提出数据仓库

（Data Warehouse）。数据仓库主要功能是将OLTP经年累月所累积的大量数据，通过数据仓库特有的数据储存架构进行OLAP，最终帮助决策者能快速有效地从大量数据中，分析出有价值的信息，提供决策支持。自从数据仓库出现之后，信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。

数据仓库相比数据库，主要有以下两个特点：

● 数据仓库是面向主题集成的。数据仓库是为了支撑各种业务而建立的，数据来自于分散的操作型数据。因此需要将所需数据从多个异构的数据源中抽取出来，进行加工与集成，按照主题进行重组，最终进入数据仓库。

● 数据仓库主要用于支撑企业决策分析，所涉及的数据操作主要是数据查询。因此数据仓库通过表结构优化、存储方式优化等方式提高查询速度、降低开销。

表1-3 数据仓库与数据库的对比

维度数据仓库数据库

应用场景 OLAP OLTP

数据来源多数据源单数据源

数据标准化非标准化Schema 高度标准化的静态Schema 数据读取优势针对读操作进行优化针对写操作进行优化

什么是数据湖？

在企业内部，数据是一类重要资产已经成为了共识。随着企业的持续发展，数据不断堆积，企业希望把生产经营中的所有相关数据都完整保存下来，进行有效管理与集中治理，挖掘和探索数据价值。

数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库，它可以存储来自多个数据源、多种数据类型的原始数据，数据无需经过结构化处理，就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。

数据湖的本质，是由“数据存储架构+数据处理工具”组成的解决方案。

● 数据存储架构：要有足够的扩展性和可靠性，可以存储海量的任意类型的数据，

包括结构化、半结构化和非结构化数据。

● 数据处理工具，则分为两大类：

– 第一类工具，聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。

– 第二类工具，关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理

(20)

能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具，元数据缺失，湖里的数据质量就没法保障，最终会由数据湖变质为数据沼泽。

随着大数据和AI的发展，数据湖中数据的价值逐渐水涨船高，价值被重新定义。数据湖能给企业带来多种能力，例如实现数据的集中式管理，帮助企业构建更多优化后的运营模型，也能为企业提供其他能力，如预测分析、推荐模型等，这些模型能刺激企业能力的后续增长。

对于数据仓库与数据湖的不同之处，可以类比为仓库和湖泊的区别：仓库存储着来自特定来源的货物；而湖泊的水来自河流、溪流和其他来源，并且是原始数据。

表1-4 数据湖与数据仓库的对比

维度数据湖数据仓库

应用场景可以探索性分析所有类型的数据，包括机器学习、数据发现、特征分析、预测等

通过历史的结构化数据进行数据分析

使用成本起步成本低，后期成本较高起步成本高，后期成本较低数据质量包含大量原始数据，使用前需

要清洗和标准化处理

质量高，可作为事实依据

适用对象数据科学家、数据开发人员为主

业务分析师为主

什么是湖仓一体？

虽然数据仓库和数据湖的应用场景和架构不同，但它们并不是对立关系。数据仓库存储结构化的数据，适用于快速的BI和决策支撑，而数据湖可以存储任何格式的数据，

往往通过挖掘能够发挥出数据的更大作为，因此在一些场景上二者的并存可以给企业带来更多收益。

湖仓一体，又被称为Lake House，其出发点是通过数据仓库和数据湖的打通和融合，

让数据流动起来，减少重复建设。Lake House架构最重要的一点，是实现数据仓库和数据湖的数据/元数据无缝打通和自由流动。湖里的“显性价值”数据可以流到仓里，

甚至可以直接被数仓使用；而仓里的“隐性价值”数据，也可以流到湖里，低成本长久保存，供未来的数据挖掘使用。

华为的数据使能方案

华为云数据湖治理中心DGC为大型政企客户量身定制跨越孤立系统、感知业务的数据资源智能管理解决方案，实现全域数据入湖，帮助政企客户从多角度、多层次、多粒度挖掘数据价值，实现数据驱动的数字化转型。

数据湖治理中心DGC的核心主要是华为智能数据湖FusionInsight，包含数据库、数据仓库、数据湖等各计算引擎平台，提供了数据使能的全套能力，支持数据的采集、汇聚、计算、资产管理、数据开放服务的全生命周期管理。

华为拥有强大的湖、仓、库引擎技术，比如数据湖敏捷构建、GaussDB数据库快速迁移，数仓的实时分析等，对应服务如下：

● 数据库：

(21)

– 关系型数据库包括：云数据库RDS、云数据库 GaussDB(for MySQL)、云数据库 GaussDB(for openGauss)、云数据库 PostgreSQL、云数据库 SQL

Server等。

– 非关系型数据库包括：文档数据库服务DDS，云数据库 GaussDB NoSQL

（包含Influx、Redis、Mongo、Cassandra）等。

● 数据仓库：数据仓库服务DWS。

● 数据湖\湖仓一体：云原生大数据MRS，数据湖探索DLI等。

● 数据治理中心：数据湖治理中心DGC。

(22)

2 ^集群管理

2.1 是否支持批量创建数据仓库？

支持。GaussDB(DWS) 提供OPENAPI可以供用户批量创建数据仓库集群。

2.2 无法成功创建数据仓库集群时怎么处理？

检查原因

检查是否用户已经没有配额创建新的数据仓库集群。

联系服务人员

如果无法确定原因并解决问题，请提交工单反馈问题。您可以登录管理控制台，在右上方单击“工单>新建工单”填写并提交工单。

2.3 如何升级或回退 GaussDB(DWS) ？

您不需要关心GaussDB(DWS) 集群修补或升级，因为GaussDB(DWS) 将自动处理版本升级。

对于服务补丁：

● 持续时间：整个过程将花费不到10分钟。

● 业务影响：在此期间，业务会中断1至3分钟。

对于服务升级：

● 持续时间：整个过程将花费不到30分钟。

● 业务影响：在此期间，数据库无法访问。

不支持版本回退。

(23)

说明

数据库版本说明图示如下：

● 服务补丁升级表示数据库版本X.X.X最后一位数字的升级更新，例如数据库版本从1.1.0升级到 1.1.1。

● 服务升级表示数据库版本X.X.X前面两位数字的升级更新，例如数据库版本从1.1.0升级到 1.2.0。

2.4 如何清理与回收存储空间？

GaussDB(DWS) 数据仓库中保存的数据在删除后，可能没有释放占用的磁盘空间形成脏数据，导致磁盘浪费、创建及恢复快照性能下降等问题，如何清理？

清理与回收存储空间对系统的影响如下：

● 删除无用的脏数据，释放存储空间。

● 数据库将进行大量读写操作，可能影响正常使用，建议选择空闲时间执行。

● 数据库的存储空间越大，即数据可能越多，清理的时间越长。

清理与回收存储空间操作步骤如下：

1. 连接数据库。具体操作步骤请参见连接集群。

2. 执行以下命令，清理与回收存储空间。

VACUUM FULL;

默认清理当前用户在数据库中，拥有权限的每一个表。没有权限的表则直接跳过回收操作。

当系统显示以下内容时，表示清理完成：

VACUUM 说明

使用FULL参数会导致统计信息丢失，如果需要收集统计信息，请在语句命令中加上 analyze关键字。例如，执行VACUUM FULL ANALYZE;命令。

VACUUM的语法请参见《SQL语法参考》中的VACUUM章节。

2.5 是否支持集群扩容或缩容？

服务当前不支持缩容，仅支持扩容，扩容后将增加集群节点以提升计算和存储能力。

集群扩容具体操作步骤请参考扩容集群章节增加集群节点。

(24)

2.6 在集群扩容过程中数据仓库集群仍可供使用吗？

扩容期间集群有短暂时间不可用，持续几分钟。

2.7 购买集群节点后，能否将节点切换到另一个区域使用？

不能，集群节点无法跨区域使用。

您可以退掉在原先region的订单，然后在新region区域重新购买订单并创建集群。

2.8 为什么扩容后已使用存储容量比扩容前减少了很多？

原因分析

扩容前，如果您没有执行vacuum清理和回收存储空间，GaussDB(DWS) 数据仓库中之前被删除的数据，可能没有释放占用的磁盘空间形成脏数据，导致磁盘浪费。

而在扩容时，系统会做一次重分布，集群扩容时新节点添加完成后，原节点存储的业务数据明显多于新节点，此时系统自动在所有节点重新分布保存数据。在开始做重分布时，系统会自动执行一次vacuum，从而释放了存储空间，因此，扩容后已使用存储容量减少了很多。

处理方法

建议您定期做vacuum full清理与回收存储空间，防止数据膨胀。

如果执行vacuum后，已使用存储容量仍然占用过高，请分析现有集群规格是否满足业务需求，若不满足，建议您对集群进行扩容。

2.9 如何查询 GaussDB(DWS) 集群全部节点的实例详细信息？

用户需要查看集群的监控指标信息时，可以通过云监控（Cloud Eye）确认集群各项指标情况。通过监控集群运行时的各项指标，用户可以识别出数据库集群状态异常的时间段，然后在数据库日志中，分析可能存在问题的活动，从而优化数据库性能。

详情请访问监控集群。

2.10 如何查看 GaussDB(DWS)各节点的指标？例如 CPU 使用率、内存使用率、磁盘利用率、磁盘使用量等？

集群已使用容量指标，可通过云监控管理控制台查看。查看方法：

步骤1 登录GaussDB(DWS)管理控制台，单击集群列表中某个集群右侧的“查看监控指标”

进入云监控管理控制台。

(25)

步骤2 单击返回云服务监控界面，切换到“数据仓库节点”，再单击对应节点右侧的

“查看监控指标”，可查看某个节点的“磁盘使用量”。

----结束

2.11 GaussDB(DWS)是否支持磁盘扩容？

不支持。GaussDB(DWS)不支持磁盘扩容，仅支持节点扩容，扩容后将增加集群节点以提升计算和存储能力。

集群扩容具体操作步骤请参考扩容集群章节增加集群节点。

2.12 GaussDB(DWS)是否支持单节点以适用于学习环境？

不支持。GaussDB(DWS)集群最少为3节点，暂不支持单节点的集群创建。在创建 DWS集群时，资源中有配置相对较低的规格选择，供学习环境使用，您可以选择 dws2.km1.xlarge （4 vCPUs、32GB）作为学习环境使用。

2.13 GaussDB(DWS)规格是否支持裸金属服务（BMS）？

支持。GaussDB(DWS)服务在华为云上默认使用ECS规格，如需要申请裸金属BMS规格，请通过提交工单的方式申请。

2.14 GaussDB(DWS)的磁盘空间/容量是如何统计的？

GaussDB(DWS)的磁盘使用情况，以3个数据节点为例，假设每个节点320G，总容量为960G。当存入一个1G的数据，GaussDB(DWS)因为副本机制会将这1G的数据在两个节点中都各存一份，共占2G的空间，如果再加上元数据、索引等，实际1G的数据，

存入DWS后占用的空间不止2G。所以总容量为960G的3节点集群，总量能存480G的数据。因为存储硬盘本身不贵，客户数据才珍贵。

客户在华为云的GaussDB(DWS)控制台上购买的时候，页面已经是按照一个节点的真正容量空间来统计的。比如dws.m3.xlarge，在购买页面是160G，但实际这个节点的磁盘是有320G的，已经将这个320G显示为160G了，便于客户按实际落盘数据进行购买。

2.15 GaussDB(DWS)集群是否支持修改节点 IP？

不支持。GaussDB(DWS)集群不支持修改节点IP，会导致集群内部无法通讯。建议您在创建集群时，根据业务需求，规划好区域、VPC和子网。

2.16 创建集群时，云数仓和标准数仓有什么区别？

云数仓和标准数仓区别如下：

● 云数仓：针对使用EVS盘的规格，支持用户在可选范围内自定义集群使用的存储类型与存储容量；话单计费上，第二代EVS盘规格采用存储资源独立计费的方式。

(26)

● 标准数仓：OLAP，支持10PB级超大规模数据在线查询、离线分析能力，可扩展至1024节点。不支持用户自定义存储类型与存储容量。

说明

● 对于BMS、本地盘非EVS存储的规格，创建集群时不支持用户自定义存储类型和存储容量，

与当前版本能力一致，只支持用户选择规格类型。

● 云数仓和标准数仓功能和扩展性上没有区别，性能上标准数仓本地SSD盘性能和资源隔离性略优于云数仓的EVS云盘，但弹性能力弱于云数仓（标准数仓磁盘容量配比固定，扩容是计算存储一起扩），一般小规格集群（50节点以内）建议用云数仓，大规格（50节点以上）企业级数仓建议用标准数仓。

2.17 是否支持修改 GaussDB(DWS)的 CPU 平台架构，如 X86 改为 ARM？

不支持。GaussDB(DWS)集群一旦创建后，不支持修改CPU架构。

2.18 鲲鹏架构和 X86 架构的 GaussDB(DWS)集群有什么区别，业务应用是否感知？

只是底层架构不一致，应用层不感知，sql语法一致，如果创建集群时提示X86售罄，

可以选择鲲鹏架构。

2.19 GaussDB(DWS)中的 gaussdb 和 postgres 两种类型数据库在使用时有什么特别说明吗？

gaussdb和postgres都是系统自带的数据库，可以在里面创建模式和表。但建议用户重新创建数据库，并在新数据库下创建模式和表。

2.20 添加云监控服务的告警规则，会话数阈值如何设置？

连接数据库后，执行以下SQL语句可以查看当前全局最大并发会话数。

show max_active_statements;

进入到云监控界面，根据查出的全局最大并发会话数，取70%-80%为阈值即可。例如，查询到max_active_statements为80，则阈值设置为80*70%=56。

设置方法：

1. 在DWS管理控制台，选择“集群管理”。

2. 单击集群所在行右侧的“查看监控指标”，进入云监控服务界面。

3. 单击左上角，单击集群名称所在行右侧“创建告警规则”，

(27)

4. “选择类型”选择“自定义创建”，指标名称选择“会话数”，告警策略填写

“56”，告警级别为“重要”，单击“立即创建”。

(28)

3 ^{数据库连接}

3.1 GaussDB(DWS) 是否支持第三方客户端以及 JDBC 和 ODBC 驱动程序？

推荐使用GaussDB(DWS) 客户端和驱动程序。与开源的PostgreSQL客户端和驱动程序相比，有两个主要的优点：

● 安全强化：PostgreSQL驱动程序只支持MD5认证，但GaussDB(DWS) 驱动程序支持SHA256和MD5。

● 数据类型增强：GaussDB(DWS) 驱动程序支持新的数据类型smalldatetime和 tinyint。

GaussDB(DWS) 支持开源PostgreSQL客户端和JDBC和ODBC驱动程序。

兼容的客户端和驱动程序版本如下：

● PostgreSQL的psql 9.2.4或更高版本

● PostgreSQL JDBC驱动程序9.3-1103或更高版本

● PSQL ODBC 09.01.0200或更高版本

使用JDBC/ODBC连接GaussDB(DWS)，可参见开发指南的教程：使用JDBC或ODBC开发。

3.2 是否支持使用 Navicat 连接 GaussDB(DWS)？

不支持。GaussDB(DWS)暂不支持使用Navicat连接，推荐使用官网推荐的Data Studio。

3.3 可以通过 SSH 连接 GaussDB(DWS) 集群的节点吗？

不可以。GaussDB(DWS) 底层通过虚拟机实现数据分析功能，即GaussDB(DWS) 的计算节点。但您不能通过SSH方式直接连接GaussDB(DWS) 计算节点，您仅能通过 GaussDB(DWS) 服务提供的内网或公网访问地址连接相应的GaussDB(DWS) 集群数据库。

(29)

3.4 无法连接数据仓库集群时怎么处理？

检查原因

基本原因可能有以下几种：

● 集群状态是否正常。

● 连接命令是否正确，用户名、密码、IP地址或端口无误。

● 安装客户端的操作系统类型、版本是否正确。

● 安装客户端的操作是否正确。

如果是在公有云环境无法连接，还需要检查以下可能导致异常的原因：

● 弹性云服务器是否与集群在相同可用区、虚拟私有云、子网和安全组。

● 安全组的出入规则是否正确。

如果是在互联网环境无法连接，还需要检查以下可能导致异常的原因：

● 用户网络是否与互联网可以正常连通。

● 用户网络防火墙策略是否限制了访问。

● 用户网络是否需要通过代理才能访问互联网。

联系服务人员

如果无法确定原因并解决问题，请提交工单反馈问题。您可以登录管理控制台，在右上方单击“工单>新建工单”填写并提交工单。

3.5 为什么在互联网环境连接 GaussDB(DWS) 后，解绑了 EIP 不会立即返回失败消息？

这是因为解绑了EIP后，会导致网络断开。但是此过程中，TCP协议层因keepalive等的设置，无法及时识别物理连接已经故障，导致gsql，ODBC和JDBC等客户端无法及时识别网络故障。

客户端等待数据库返回的时间与keepalive参数的设置相关，具体可以表示为：

keepalive_time + keepalive_probes * keepalive_intvl。

因为keepalive参数涉及到网络的通信的稳定性，所以可根据具体的业务压力与网络状况进行调整。

如果是Linux环境，使用sysctl命令修改如下参数：

● net.ipv4.tcp_keepalive_time

● net.ipv4.tcp_keeaplive_probes

● net.ipv4.tcp_keepalive_intvl

以修改net.ipv4.tcp_keepalive_time参数值为例，执行如下命令将参数值修改为120 秒：

sysctl net.ipv4.tcp_keepalive_time=120

(30)

如果是Windows环境，修改注册表“HKEY_LOCAL_MACHINE\SYSTEM

\CurrentControlSet\services\Tcpip\Parameters”中的如下配置信息：

● KeepAliveTime

● KeepAliveInterval

● TcpMaxDataRetransmissions（相当于tcp_keepalive_probes）

说明

如果以上参数不在注册表“HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services

\Tcpip\Parameters”中，可以在注册表编辑器对应路径下右键单击“新建 > DWORD值”进行添加。

3.6 下载的客户端是否有平台和操作系统限制？

客户端版本有X86和ARM平台区分，不同平台下支持的操作系统也是不相同的。请根据客户端所在的服务器或ECS的平台和操作系统选择对应的版本下载。

3.7 数据仓库和数据库在同一区域的不同可用区内，如何通信？

只要是同一个区域下，不同可用区（AZ）下的资源，如果是同一个虚拟私有云下，可以直接通信。

如果同一个区域下，不同可用区（AZ）下的资源不在一个虚拟私有云下，可以通过建立私有云对等连接去通信。详细可参考虚拟私有云 VPC。

3.8 与 GaussDB(DWS)集群通信有什么要求，是否必须同一个 VPC 和子网下？

BI应用、客户端ECS、DGC等服务，如需与GaussDB(DWS)通信，需要跟

GaussDB(DWS)集群在同一个区域下，同一个VPC下（同一个VPC下，可以在不同子网下）。

同一个区域下，不同可用区（AZ）下，如果是同一个VPC，也是可以通信的；如果不同VPC，则可以通过建立对等连接进行通信。详细请参考虚拟私有云 VPC

3.9 使用公网 IP 连接集群时如何设置白名单？

用户可以登录VPC管理控制台手动创建一个安全组，然后回到GaussDB(DWS) 创建集群页面，单击“安全组”下拉列表旁边的按钮，刷新后在“安全组”下拉列表中选择新建的安全组。

为了使GaussDB(DWS) 客户端可以连接集群，用户需要在新建的安全组中添加一条入规则，开放GaussDB(DWS) 集群的数据库端口的访问权限。

● 协议：TCP。

● 端口范围：8000。指定为创建GaussDB(DWS) 集群时设置的数据库端口，这个端口是GaussDB(DWS) 用于接收客户端连接的端口。

(31)

● 源地址：选中“IP地址”，然后指定为客户端主机的IP地址，例如

“192.168.0.10/32”。

图3-1 添加入方向规则

添加完成后，即设置白名单成功。

(32)

4 ^{数据导入导出}

4.1 OBS 外表与 GDS 外表支持的数据格式有什么区别?

OBS与GDS外表支持格式文件区别如下：

OBS支持的文件格式：CSV、TEXT、ORC、CARBONDATA，缺省值为TEXT GDS支持的文件格式：CSV、TEXT，缺省值为TEXT

4.2 OBS 外表导入数据时如果 OBS 数据有更新如何做增量更新导入？

使用OBS外表导入数据时，是通过insert语句导入本地物理表。当OBS数据有更新时，

不需要再执行insert语句，可使用MERGE INTO语句。

4.3 数据如何存储到数据仓库服务？

GaussDB(DWS) 支持多数据源高效入库，典型的入库方式如下所示。详细指导请参见

《数据仓库服务数据库开发指南》中的导入数据。

● 从OBS导入数据

数据上传到OBS对象存储服务中，再从OBS中导入，支持CSV，TEXT格式数据。

● 通过INSERT语句直接插入数据

用户可以通过GaussDB(DWS) 提供的客户端工具（gsql）或者JDBC/ODBC驱动从上层应用向GaussDB(DWS) 写入数据。GaussDB(DWS) 支持完整的数据库事务级别的增删改(CRUD)操作。这是最简单的一种方式，这种方式适合数据写入量不太大，并发度不太高的场景。

● 从MRS导入数据，将MRS作为ETL

● 通过COPY FROM STDIN方式导入数据。

通过COPY FROM STDIN命令写数据到一个表。

● 使用GDS从远端服务器导入数据到GaussDB(DWS)

当用户需要将普通文件系统（例如，弹性云服务器）中的数据文件导入到 GaussDB(DWS) 时，可以使用GaussDB(DWS) 提供的GDS导入数据的功能。

(33)

● 从DIS导入数据到GaussDB(DWS)

● 使用CDM迁移数据到GaussDB(DWS)

4.4 数据仓库可以存储多少业务数据？

数据仓库集群每个节点默认能够支持1.49TB、2.98TB、4.47TB、160GB、1.68TB、

13.41TB六种规格的存储容量，一个集群支持的节点数范围为3～32，集群总的存储容量随集群规模等比例扩充。

为增强可靠性，每个节点都有一个副本，副本会占用一半的存储空间，选择容量时副本容量会自动翻倍存储。

数据仓库系统会备份数据，生成索引、临时缓存文件、运行日志等内容，并占用存储容量。每个节点实际存储的数据，大致为总存储容量的一半。

4.5 是否支持使用 COPY 命令直接将本地数据导入 GaussDB(DWS) 集群？

不支持。目前不支持使用COPY命令直接导入本地csv数据文件，建议使用OBS导入，

参见教程指引。

4.6 云上如何使用 copy 入库？

由于云上GaussDB(DWS) 是全托管服务，用户无法登录后台，无法使用copy进行导入文件，所以云上将copy语法禁掉。云上推荐将数据文件放到obs上，使用obs外表进行入库，如果需要使用copy导入数据，可以参考如下方法：

1. 将数据文件放到客户端的机器上。

2. 使用gsql连接集群。

3. 执行如下命令导入数据，输入数据文件在客户端的目录信息和文件名，with中指定导入选项，跟正常copy一样，但是需要在copy前添加"\"标识，入库成功后不会有消息提示。

\copy tb_name from '/directory_name/file_name' with(...);

4.7 是否支持跨 Region 进行 OBS 导入或导出数据？

不支持。GaussDB(DWS)不支持跨Region进行OBS导入或导出数据，必须确保DWS集群和OBS在同一个Region内。

例如，北京四的GaussDB(DWS)集群不能直接将数据导出到北京一的OBS，可以先将数据导出到北京四的OBS，再使用CDM将北京四的OBS数据导到北京一的OBS。

4.8 GaussDB(DWS)/MySQL/SQL Server 的数据如何导入/

迁移到 GaussDB(DWS)（整库迁移）？

对于异构数据的入库，可通过CDM迁移，支持MySQL、SQL Server的整库迁移，以及老GaussDB(DWS)导入到新GaussDB(DWS)的整库迁移，详情请参见CDM整库迁移。

您也可以将数据存入OBS再转储至GaussDB(DWS)，详情请参见OBS并行导入。

(34)

4.9 Oracle 数据如何导入/迁移到 GaussDB(DWS)？

支持使用CDM将Oracle数据导入GaussDB(DWS)，可参见配置关系数据库连接配置连接器，再参见CDM整库迁移进行迁移。

4.10 GDS 导入数据时是否支持使用公网/外网导入？

不支持。GDS导入数据的原理是，GDS服务器和GaussDB(DWS)在内网互通的前提下，使用集群内每个DN去并行连接GDS服务器，以达到大容量并行导入的目的，因此必须确保GDS服务器与集群在同一个网络内。如果GDS为线下服务器，则需要打通防火墙，并且GaussDB(DWS)集群需要使用EIP，但一个集群只能绑定一个EIP，也无法实现GDS的多DN连接导入。

4.11 GaussDB(DWS)是否支持导出 Excel 格式的数据文件？

DWS暂不支持代码直接导出Excel格式文件，推荐使用客户端Data Studio导出Excel格式的数据文件。请参见导出表数据。

(35)

5 ^{帐户、密码、权限}

5.1 数据库密码到期了，如何修改？

数据库管理员dbadmin的密码，可登录管理控制台选择集群所在行右边的“更多 > 重置密码”进行修改。

出于安全机制考虑，GaussDB(DWS)在集群参数中通过以下2个关键参数管理帐户密码，在管理控制台，单击集群名称，切换到“参数修改”可进行参数修改。

● failed_login_attempts：输入密码错误的次数，超出设置值，数据库帐户会被自动锁定，可通过dbadmin管理帐户执行以下语句解锁。

ALTER USER user_name ACCOUNT UNLOCK;

● password_effect_time：帐户密码的有效期，单位为天，默认为90。

5.2 如何查看数据库中的所有用户和权限信息？

● 要查看用户列表，请查询视图PG_USER ：

● 要查看用户属性，请查询系统表PG_AUTHID：

SELECT * FROM pg_authid;

5.3 如何赋予指定用户数据库的某个 SCHEMA 权限？

数据库中创建的某个用户需要实现该库下某个schema固化（未来、持久化）权限，可使用ALTER DEFAULT PRIVILEGES语句授权。

假设有两个用户user1和user2，如果需使user2用户对user1用户未来创建的表都有查询权限，可执行如下操作：

步骤1 把user1的schema的权限赋权给user2用户。

GRANT USAGE, CREATE ON SCHEMA user1 TO user2;

步骤2 把user1用户的表的查询权限赋值给user2用户。

ALTER DEFAULT PRIVILEGES FOR USER user1 IN SCHEMA user1 GRANT SELECT ON tables TO user2;

步骤3 验证。user1建表，user2可以成功查询。

(36)

---user1用户创建表。

set role user1 password 'Gauss_234';

create table demo(a int, b int);

---user2用户查询。

set role user2 password 'Gauss_234';

select * from user1.demo;

a | b ---+--- (0 rows)

----结束

5.4 如何 REVOKE 某用户的 connect on database 权限？

GaussDB(DWS)提供了一个隐式定义的拥有所有角色的组PUBLIC，所有创建的用户和角色默认拥有PUBLIC所拥有的权限。要撤销或重新授予用户和角色对PUBLIC的权限，

可通过在GRANT和REVOKE指定关键字PUBLIC实现。

GaussDB(DWS)会将某些类型的对象上的权限授予PUBLIC。默认情况下，对表、表字段、序列、外部数据源、外部服务器、模式或表空间对象的权限不会授予PUBLIC，而以下这些对象的权限会授予PUBLIC：数据库的CONNECT权限和CREATE TEMP TABLE 权限、函数的EXECUTE特权、语言和数据类型（包括域）的USAGE特权。当然，对象拥有者可以撤销默认授予PUBLIC的权限并专门授予权限给其他用户。为了更安全，建议在同一个事务中创建对象并设置权限，这样其他用户就没有时间窗口使用该对象。

另外，这些初始的默认权限可以使用ALTER DEFAULT PRIVILEGES命令修改。

可参考以下示例，REVOKE某用户的connect on database权限：

步骤1 执行以下命令连接GaussDB(DWS) 集群的默认数据库gaussdb：

gsql -d gaussdb -h 192.168.0.89 -U dbadmin -p 8000 -r

根据界面提示输入密码后，显示如下信息表示gsql工具已经连接成功：

gaussdb=>

步骤2 创建用户u1。

CREATE USER u1 IDENTIFIED BY 'Bigdata123@';

CREATE USER

步骤3 确认u1正常访问。

gsql -d gaussdb -h 192.168.0.89 -U u1 -p 8000 -W Bigdata123@ -r

gsql ((GaussDB 8.1.0 build be03b9a0) compiled at 2021-03-12 14:18:02 commit 1237 last mr 2001 release) SSL connection (protocol: TLSv1.3, cipher: TLS_AES_128_GCM_SHA256, bits: 128)

Type "help" for help.

步骤4 撤销public的connect on database权限。

gsql -d gaussdb -h 192.168.0.89 -U dbadmin -p 8000 -r gaussdb=>

REVOKE CONNECT ON database gaussdb FROM public;

REVOKE 说明

若直接使用revoke connect on database postgres from u1命令撤销u1用户的权限不会生效，因为数据库的CONNECT权限授予了PUBLIC，需指定关键字PUBLIC实现。

步骤5 验证结果，显示如下内容表示用户u1的connect on database权限已成功撤销。

(37)

gsql -d gaussdb -h 192.168.0.89 -U u1 -p 8000 gsql: FATAL: permission denied for database "gaussdb"

DETAIL: User does not have CONNECT privilege.

----结束

计费问题_数据仓库服务 GaussDB(DWS)_常见问题_华为云

常见问题

目 录

1 通用问题...1

2 集群管理...16

3 数据库连接...22

4 数据导入导出...26

5 帐户、密码、权限... 29

6 数据库使用...32

7 数据库性能...37

8 日志问题...39

9 备份恢复...40

10 计费问题... 43

1 通用问题

1.1 什么是数据仓库？

1.2 数据仓库内核 gaussdb 是自研吗？

1.3 为什么要使用数据仓库？

现状和需求

困难

解决方案

1.4 数据仓库适合哪些场合使用？

商业智能系统

数据仪表盘

探索式和交互式数据分析

批量数据处理

1.5 数据仓库和 Hadoop 大数据平台有什么差别？

1.6 为什么要使用公有云数据仓库服务 GaussDB(DWS) ？

1.7 数据仓库服务的优势有哪些？

1.8 如何选择公有云 GaussDB(DWS) 或者公有云 RDS？

1.9 GaussDB(DWS) 和 MRS 分别应在何时使用？

1.10 GaussDB(DWS) SQL on OBS 能否取代 MRS？

1.11 GaussDB(DWS) 与 Hive 在功能上有哪些差别？

1.12 什么是用户配额？

1.13 用户和角色是什么关系？

1.14 如何查看用户创建时间，需要用到哪个视图或语法

PG_USER视图提供了访问数据库用户的信息。

ALTER USER语法提供了修改数据库用户的方法。

1.15 区域和可用区

什么是区域、可用区？

如何选择区域？

如何选择可用区？

区域和终端节点

1.16 数据在数据仓库服务中是否安全？

业务数据安全

快照数据安全

网络访问安全

1.17 数据仓库使用哪些安全防护？

1.18 可以修改 GaussDB(DWS) 集群的安全组吗？

1.19 LibrA、GaussDB A 与 GaussDB(DWS) 是什么关系？

computing/gaussdb-200-pid-21407429

gaussdb-a-pid-250949677

1.20 数据库、数据仓库、数据湖、湖仓一体分别是什么？

什么是数据库？

什么是数据仓库？

什么是数据湖？

什么是湖仓一体？

华为的数据使能方案

Server等。

2 集群管理

2.1 是否支持批量创建数据仓库？

2.2 无法成功创建数据仓库集群时怎么处理？

检查原因

联系服务人员

2.3 如何升级或回退 GaussDB(DWS) ？

2.4 如何清理与回收存储空间？

2.5 是否支持集群扩容或缩容？

2.6 在集群扩容过程中数据仓库集群仍可供使用吗？

2.7 购买集群节点后，能否将节点切换到另一个区域使用？

2.8 为什么扩容后已使用存储容量比扩容前减少了很多？

原因分析

处理方法

2.9 如何查询 GaussDB(DWS) 集群全部节点的实例详细信 息？

2.10 如何查看 GaussDB(DWS)各节点的指标？例如 CPU 使 用率、内存使用率、磁盘利用率、磁盘使用量等？

2.11 GaussDB(DWS)是否支持磁盘扩容？

2.12 GaussDB(DWS)是否支持单节点以适用于学习环境？

2.13 GaussDB(DWS)规格是否支持裸金属服务（BMS）？

2.14 GaussDB(DWS)的磁盘空间/容量是如何统计的？

2.15 GaussDB(DWS)集群是否支持修改节点 IP？

2.16 创建集群时，云数仓和标准数仓有什么区别？

2.17 是否支持修改 GaussDB(DWS)的 CPU 平台架构，如 X86 改为 ARM？

目录

1 ^通用问题

2 ^集群管理

2.9 如何查询 GaussDB(DWS) 集群全部节点的实例详细信息？

2.10 如何查看 GaussDB(DWS)各节点的指标？例如 CPU 使用率、内存使用率、磁盘利用率、磁盘使用量等？

2.18 鲲鹏架构和 X86 架构的 GaussDB(DWS)集群有什么区别，业务应用是否感知？

2.19 GaussDB(DWS)中的 gaussdb 和 postgres 两种类型数据库在使用时有什么特别说明吗？

3 ^{数据库连接}

3.7 数据仓库和数据库在同一区域的不同可用区内，如何通信？

3.8 与 GaussDB(DWS)集群通信有什么要求，是否必须同一个 VPC 和子网下？

4 ^{数据导入导出}

4.2 OBS 外表导入数据时如果 OBS 数据有更新如何做增量更新导入？

5 ^{帐户、密码、权限}