华为大数据解决方案汇报
--FusionInsight金融大数据解决方案
Content
大数据发展趋势
1
3 华为大数据平台行业实践
2 华为大数据平台关键技术
4 华为大数据平台案列详述
未来银行:客户更加移动化、个性化、社交化,实时化
固定时间地点获取服务 被动接受数据
寻求更多资源 信任市场信息 被动接受传播
传统客户
随时随地获取服务 分析、创造数据 寻找有意义的体验 互动参与内容、产 品和体验的创建 审视细节
新客户
传统银行
关注过程和步骤
固定渠道单一交互 通过客户经理联系客户 标准化和产业化提供服务 被动接受信息且信息来源单一
关注场景
营销 客户
运营 客户
服务 客户
个性化的 灵活服务
效率
全渠道
新银行
第二数据平台成为驱动业务创新的新平台
或有金融资产 统一历史明细
在线征信 精准营销 实时营销
第一数据平面:
交易核心
单次、事务性
第二数据平面:
大数据平台
并发、查询/分析
POS ATM 柜面 电话银行 网上银行
金融脉络关系
实时
互联网
批量
大数据业务:
实时在线性 业务持续性 跨多元数据
对大数据平台的要求:
企业级质量标准:金融等保、可靠、易用;支持现有系统的对接。
开放性:多分析引擎统一管理,满 足多样化的数据分析场景
挖掘能力:支持机器学习、深度学习等新 的数据挖掘能力,实现更精准的洞见数据:存量 . 增量 . 行内 . 行外
交易 明细 帐户
明细 帐户 影像 日志 社交 信用
行外数据
行内数据
企业数据平面 历史数据越来越多
非结构化数据越来越多
社交、网购数据
“在大数据领域,不能充分形成大数据使用能力 的竞争者将被淘汰”- McKinsey Global Institute
业务系统
数据分析
混合型数据平台-体系架构
新核心系统
老核心系统
客户系统
外围系统
渠道系统
外部系统
操作型 数据区 数据 交换区
数 据 采 集 和 交 换 平 台
集成型数据区
实时事件处理平台
历史数据区 历史数据平台
分析型数据区
监管报送平台 统一报表平台 管理会计系统 流动风险系统 市场风险系统 数据挖掘平台 国家审计平台
应用服务区
服务器 应用
报表 工具
W E B 服 务 器
即席 查询
数据 挖掘 工具
历史 数据 访问 应用 技
术缓 冲 层
贴源 模 型层
共性 加 工层
大数据平台
ETL调度 数据标准 元数据 数据质量 数据管控 数据交换
基 础模 型层
传统平台 应用 集 市层
基础数据平台
对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。
功能定位:主要承担面向客户的交易、帐务处理,面向内部的流程、
事务管理等功能。
数据特征:存储业务处理和流程管理过程中产生的客户、协议、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。
混合型数据平台-数据区域
对应系统:主要是历史数据平台。
功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、公检法查询等应用提供支持。
数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。
操作型数据区
对应系统:基础数据平台、大数据平台和实时事件处理平台。
功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。
数据特征:
1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。
2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主;
3.实时事件处理平台以实时事件数据的集中管理和加工为主。
集成型数据区
对应系统:统一报表平台、监管报送平台、管理会计、风险管理等 系统。
功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题 进行数据的高粒度汇总加工、图形化分析和展现。
数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。
分析型数据区 历史数据区
数据处理技术分布式演进趋势:Hadoop成为开放的事实标准
SMP Hadoop
特点:Share Everything
结构化、关系型
Flash Cache+分布式块存储+IB
SMP+MPP混合 MPP
特点:Share Nothing
开放,、全球生态
结构化、半结构化、非结构化
高性能、实时
特点:Share Nothing
结构化、关系型
通用的硬件
特点:单机、Scale up
性能存在瓶颈
扩展性差
内存计算兴起,Hadoop生态系统持续壮大
实时化:内存计算兴起
Hadoop生态系统持续扩大
AMPlab开发的Spark,提供迭代式内存计算模型,非 常适合用于数据挖掘算法的并行化
预计Spark将成为编写和分享数据挖掘算法的标准平台
Spark目前已经成为Apache顶级项目
Hadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Hadoop。
Hadoop
HDFS
Storm MapReduce
Pig
Hive
YARN/Zookeeper
Spark
HBase Flume
Sqoop
Integration Batch
Processing Interactive
Analytics Search Machine
Learning Complex Event Process
3rd Party or customized wordload
Impala Solr
MLLIB 融入
混合负载的统一计算平台,满足数据多样化
Content
大数据发展趋势
2
3 华为大数据平台行业实践
1
华为大数据平台关键技术
4 华为大数据平台案列详述
全球布局、全面覆盖大数据领域关键技术
西安研究所:
大数据算法(IT)
Hadoop产品化(IT)
ELK/MPP DB(高斯实验室)
深圳研发基地/香港:
大数据洞察平台(IT)
大数据解决方案(IT)
数据挖掘算法(诺亚实验室)
印度研究所:
Hadoop(中央软件院)
数据可视化(中央软件院)
MOLAP(中央软件院)
美研所:
Spark (中央软件院)
ELK/MPP DB(高斯实验室)
大数据系统加速(香农实验室)
欧研所:
分布式内存DB(中央软件院)
分布式计算算法(中央软件院)
杭州研究所:
Hadoop(中央软件院)
Spark(中央软件院)
流计算(中央软件院)
加研所:
Yarn/大规模调度
硬件加速(中央硬件院)
金融大数据分析(IT)
俄研所:
大数据算法(香农实验室)
华为在社区的贡献
Hadoop 会使用
会定位周边问题
会定位内核级问 题(拔尖的个人)
定位内核级问题 的团队(依赖团 队而不是精英个 人)
能够独立完成支 撑关键业务特性 的内核级开发
能够带领社区,引 领社区完成面向未 来的内核级特性开 发
能够创建新的社区 顶级项目,并且得 到生态系统认可
强大的Hadoop内核团队支持的开发与产品交付能力,企业级运营支撑能力 Apache开源社区生态系统
组件多,代码量大 组件更新块
特性无有效整合 华为积极参与spark社区贡献,主导Spark SQL升级支持hive 0.13,
其中合入社区patch 150+,公司贡献在社区排名第三。
强大内核开发团队提供企业级的开源支撑能力
企业版的关键在于工程团队的能力及与周边生态环境的对接能力
某大银行CIO:“我们把大数据应用视作 是生命线,肯定是采用企业版,因为搞开 源软件不是我们的主业。在选合作伙伴的 时候,我们一定考虑门当户对,因为强有 力的合作伙伴才能保证5~8年的供应、合 作安全”
华为大数据:提供大数据存储、处理、分析和服务平台
Manager 统一管理
通用X86服务器 分布式存储
数据处理平台
大数据基础设施 数据集成平台
收集 清洗 转换
特征/模型/挖掘/可视/服务
数据洞察/数据服务
电信 详单查询、经分分析、
精准营销
银行 全生命周期分析、历史明细、
精准营销、在线征信与风控 等
行业应用
政府 交通、公安 情报分析、人口管理
海量数据存储,批处理,流处理、交互式分析
HIVE/Impala/Elk
HDFS/HBase M/R Spark Porter Miner DataFarm
Hadoop Storm Solr
系统管理 Farmer
元数据管理 Manager
Hadoop API Plugin API OpenAPI/SDK
应用服务层
REST/SNMP/Syslog
Data Information Knowledge wisdom
Yarn/ Zookeeper MPP DB 安全管理
FusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践
FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括 相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer
FusionInsight Manager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理
大数据软件平台FusionInsight
Porter用来简化大数据的数据集成
除了开源的Sqoop2支持的DB和HDFS外, porter还支持从SFTP, FTP和NAS进行数据导入和导出
除了Sqoop2支持的HDFS外, porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制
Sql请求和响应可以通过SFTP和FTP提交, 实现和现有系统的无缝集成
轻量汇总的Sql和结果可以通过 SFTP和FTP提交, 并且能够自动调度按天/按月调度。
FusionInsight Porter:大数据全能搬运工
RMDB
Hadoop
• HDFS
• HBase
SFTP
Server
FTP Server
Other Data Source
Porte r
DB 文件服务器
MR/spark/Hive 任务提交
目标系统
HDFS /Hive
HBase
RDMS
数据 数据 FTP/SFTP/NFS
JDBC
Porter
FusionInsight Miner:基于分布式内存计算的数据分析平台
主要特点:
端到端分析平台:一站式平台支撑数据分析全流程
特征工程/社交化:特征复用;支持1,000万维度
建模算法:自研HiGraph算法,, 比MLlib快3~5倍
开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接;
业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件
act 典 型 数 据 挖 掘
业务理解
数据理解 数据预处理
特征提取 模型
模型构建 模型
模型 模型评估 模型
模型应用
应用效果评估
结束 开始
模型评估好
应用效果好
典型数据分析流程
①
②
③
FusionInsight Miner
数据探索
并行化机器学习算法库(Mahout/MLlib/HiGraph) 建模分析 可视化 行业应用使能器(Enabler)
金融行业模型 使能套件 电信行业模型
使能套件
通用使能套件
(标签管理、推 荐引擎)
特征工程
数据处理平台
① ② ③
0 500 1000 1500 2000
Top1000 Top10000 Top60000
C o n ve rsion
专家系统学习系统
> 40x
14000Dimensions
FusionInsight Farmer:大数据应用使能器
Server or VM
PaaS BLU1
Farmer SDK
Deploy on Deploy on Access Load Balance & MQ
Register REST:REQ/RESP
Manager 客户开发的应用
REST MQ
Redis
Hadoop Hadoop API Farmer SDK
BLU2 BLU3
Container
大数据实时应用使能器,支撑企业快速开 发基于大数据平台的应用。
1、分布式大数据服务框架和标准服务(如推荐)
二次开发SDK,透明化访问Hadoop,聚焦业务逻辑
高可靠的分布式处理框架,去中心化的负载均衡能力,和服 务实例的弹性伸缩能力
基于Activiti的服务编排
支持应用的灰度发布
隔离的轻量级应用容器 2、多协议接入和缓冲简化应用集成
高性能的多协议接入部件,通过ALB隐藏内部拓扑细节
高性能、高可靠消息队列部件
热点数据redis加速
为行业业务负载优化的统一大数据处理平台
FusionInsight用100%开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景
开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式
所有的组件都通过Manager提供的插件框架来按需安装
开源
轻度增强 开源
深度增强 开源
孵化特性 自研
DSL IDE
分布式计算框架
HDFS/HBase
Storm MapReduce/Tez
Pig Hive
YARN/Zookeeper
Spark Flume
Loader
Integration Batch
Processing Interactive
Query Search Machine
Learning Event Stream Process
Impala Solr MLLIB
分布式存储
Streaming Calculation
基础设施
Standard Server IMC Server Storage Server Network Pluggable Accelerator Online Query
Spark
Streaming CQL Phoenix
Elk HiGraph CTBase
MPP DB
SQL能力支持(SQL-on-Hadoop)
每一种SQL on Hadoop产品都在尽量满足某一类应用的特征,典型需 求:
•interactive query (ms~3min)
•data analyst,reporting query (3min~20min)
•data mining,modeling and large ETL (20 min ~ hr ~ day)
架构
模型 模式 定义 主要应用场景 产品
类 MPP 架构
在线查询 作业时间小于秒 级
有查询要求的场景,
响应几乎是实时的 Phoenix(HBase),
交互查询
作业时间秒级左 右,并且返回结 果集很小,一般 在万条记录以内
小数据的查询场景,
如报表展示、数据钻 取等
Elk、Impala、
MPPDB(OLAP)
类 MR 架构
批处理
作业时间超过分 钟级别,中间结 果或最终结果集 比较大
对作业时间要求不敏 感场景,主要以后台 长时间作业为主,如 系统每天、每周、每 月定时处理汇总的业 务
Hive、Spark SQL
数据挖掘
作业时间超过分 钟级别,数据计 算量比较大,内 存消耗比较多的 场景
作业对内存和CPU要 求比较高的场景,如迭 代计算的场景,主要 应用于数据挖掘、科 学计算等场景
Spark SQL
基于应用场景选择最适合的流处理技术
Batch -Batch Mini Streaming
Spark-Streaming
•Storm
Spark Streaming:微批流式计算
适用于在Spark集群上同时提供更低时延要求的微批流处理处理,如KPI统计等 Storm:事件驱动模式的实时计算
适用于更低时延要求(毫秒级),高并发的实时事件处理场景
Kevent/s Storm 1460 Spark Streaming 500
1 node,Mini-batch is set to 5s
可靠 安全
- 所有业务和管理节点HA - 跨数据中心容灾、备份 - 第三方备份系统集成 - 在线更换硬盘
- HBase容灾业界最早推出
- 代码基线是Apache开源 - 经过系统STRIDE分析加固 - 完善RBAC和多租户体系 - 与现存AAA系统标准协议对接 - 全方位数据审计功能
- STRIDE+电信系统安全红线
易用
- 易安装,集成NTP等 - 易运维,增加图形化运维 - 易开发,标准接口+实用案例 - 易定位,日志收集搜索 - HBase可视化建模
可靠、安全、易用、高效
高效
-平台核心代码性能优化
-高性能分析挖掘算法(Miner)
-存储效能提升(EC,ARM)
- 高性能网络优化(RDMA)
- 新型存储优化(大型SSD)
高效--SparkSQL:平易近人,快速上手
HQL
SQL
Unresolved
Logical Plan Logical Plan Optimized Logical Plan
Physical Plans
Schema Catalog
Relation Execution Operators
Native RDDs 语法增强
SQL Parser
SQL parser:实现插件式的SQL Parser,基于插件接口实现SQL99语法解析。
Logical Plan:新增SQL99LogicalPlans,支持SQL99逻辑计划。
元数据管理:使用Hive metastore进行元数据管理,与社区演讲发现对齐。
性能提升:原则上重用社区的优化器,必要时增加SQL99OptimizerRules,新增 and/or优化,inner join优化,hive index优化
应用场景
价值:SQL是一个常用的分析语言,客 户接受度较高,各种业务场景对SQL诉 求也较明确。
解决方案
• 方案:
基于插件式方案构建基于Spark SQL 框架的差异化语法解析器和性能优 化器
用户价值
•实现标准SQL的TPC-DS用例99个全部通 过。满足客户常用的标准SQL诉求。
高效--Spark Carbon :提升查询效率
Cube Engine
Distributed Data Store (HDFS) Cube File Cube File Cube File
Cube Processor
Cube Processor
Cube Processor Spark
RDD Partition RDD
Partition RDD
Partition
Spark Core Spark Core Spark Core OLAP Planner
Spark Application (Cube Load)
Encoding Encoding Encoding DataSource API
特点:
• 分布式,多维索引,物化视图,分布式入库,Schema固定 存储:
•CubeFile,一种按多维Key排序的文件格式
•HDFS + Shortcut 计算:
•基于Catalyst框架新增OLAP Planner,对Cube支持过滤下压、计 算下压等优化
•Cube Processor: Cube数据读取,跳转,聚合计算 语言:
•使用SparkSQL DML
•DDL:新增CREATE CUBE, LOAD INTO CUBE
…
…
…
Node1 Node2 Node3
…
Carbon性能对比
120亿行记录,20个维度,4个度量,原始数据1.5TB
• SparkSQL: Cube文件380GB;物化视图增加130GB ;
• Impala:336GB
PL/SQL SQL99 SQL2003 HQL
Elk
HDFS HBase Sql Parser Sql Eexcute jdbc/odbc/…
BI Web ETL Data Explorer
Hive Metadata
采用通用的SQL标准接口,全面兼容传统的数据库SQL和Hadoop的HQL
全面支持传统应用的接口JDBC、ODBC,并提供丰富的扩展接口如PL/C,
PL/Jaca,PL/Python
交互式查询性能达到或超越Impala
灵活的存储格式HDFS(ORC、Parquet),HBase(KV)
Elk与Impala性能对比,TPC-H(单位:秒/查询N)
测试环境: 4 节点: 2 *8 core CPUs, 96GB RAM, 6 7200rps SATA 盘, 10GE网卡, HDFS 3副本.
全面超越Impala,大部份指标是impala两倍
0 100 200 300 400 500 600 700
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Impala ELk
Elk: 交互式SQL on Hadoop
高效--HBase:二级索引
智慧 –HiGraph,高性能优质算法库
Mahout:
基于MR的并行算法库
MLlib:
基于Spark的并行算法库
HUAWEI HiGraph:
超过60种算法,半数由华为 研发及优化
Cloudera Hortonworks
Huawei FusionInsight
性能提升2-3倍
线性加速
优质算法
HiGraph
网络平面隔离
集群业务平面
集群管理平面
集群外维护网络
OMS-Server APP-Server
APP-Server
WebUI-Client
Hadoop是全分布式计算系统,要求业务节点之间全互 联。为应对由此带来的可靠性、安全性风险,
FusionInsight支持将网络划分为三级:集群业务平面、
集群管理平面和集群外维护网络,彼此之间实施物理隔 离。
实施网络隔离,可以避免业务平面的高负载阻塞集群管 理通道,也可以阻止外部攻击者通过管理通道入侵实际 业务数据。
网络类别 信任程度 说明
集群业务平面 高 Hadoop集群核心部件,业务数据在其 中存储、流转。
集群管理平面 中 仅具备集群管理功能,不接触实际的 业务数据。
集群外维护网络 低 仅能访问OMS Server提供的Web服务,
除非连续攻破OMS Server和APP Server,否则无法访问业务数据。
电信级可靠性
业务可靠性:
系统无单点: OMS,HDFS,HBASE,YARN,
HIVE,OOZIE,HUE,ZOOKEEPER,
BOOKEEPER采用主备,负荷分担方式实现服务无 单点故障
数据可靠性:
管理节点HA:OMS节点及所有业务组件中心管理 节点实现HA
跨数据中心数据备份:HBase集群通过HLOG准 实时复制,HDFS/Hive集群通过 BackupAdmin 异步复制实现跨数据中心灾备
硬盘热插拔:支持在线集群硬盘更换不影响业务.
OS层可靠性加固: RAID/OS写缓存保护实现掉电 数据保护
Raid策略: OS,OMS,NameNode,ZK 及 HDFS数据节点采用不同硬盘分区及Raid策略,兼 顾性能情况下保证数据可靠性
第三方备份系统集成 :数据可以灵活的备份在外部 系统如NAS、磁带库,只是和NBU等备份软件集 成
1 1
1 1
1
1
1
2
2
3 3
3
4
4
6 5
7
8 6
6
5
7
8
1
Hadoop cluster
NAS
…
异地灾备
表级别集群在线备份,用于在线业务故障灾备
数据恢复
批量导出
本地备份
支持库级别本地备份、批量导出 和数据恢复,支持全量、增量两 种模式。用于集群故障、人为误 操作导致的数据丢失
数据备份与集群容灾
本地备份
LdapServer
HM HM
HDFS RS RS
RS HBase
LdapServer
HM HM
HDFS RS RS
RS
HBase
RS HLog Sync
Authentication Data Sync
敏感数据加密存储
Hive/HBase
HDFS
敏感数据写 入
加密/解密 敏感数据 读取
*(&@#$^%!%$#$!(*^&*^*5!$!
@^%$^!$!%#$@%#!!$#@!
非敏感数 据
非敏感 数据
技术特点
• 保密性高:采用业界流行的算法加密。除业务接口外,其他手段读取文件均为乱码(如通过shell、或HDFS接口查看)。
• 灵活:加密算法插件化,支持AES、SMS4等,允许用户自定义。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
• 业务透明:上层业务只需指定敏感数据(Hive表级/列、HBase表/列族/列级加密),加解密过程业务完全不感知。
Hive
HBase
Content
大数据发展趋势
3
2 华为大数据平台关键技术
1
华为大数据平台行业实践
4 华为大数据平台案列详述
成功实践:全国金融领域案例最多
业务 价值
应用 场景
营销支持 产品运营 风险管控 内部管理
实时 风控
实时 征信
反欺 诈
客户 风险 报告
运维 日志 分析 智能
客服
信息 安全 分析 网站
分析
灵活深 入的客
户细分
专业化 的营销 与销售
整体解决 方案与个 性化服务 定制
安全可 靠的渠 道风险 控制
风险集成的业
务运营 高效的运营效
率 实时的风险决策
事件 营销
客户 画像
小微 贷
员工 挽留 获客
客户 挽留
个性 化理 财 舆情
分析
交叉 销售
产品 绩效 评价
大数据应用场景
账务 追溯
优化管理流程,提 升运作效率 降低管理成本
知识 管理
数据
行内业务数据
账户/流水/产品/组件日志 行内非业务数据
运维日志/对内服务系统数据 新型数据
移动应用/微信/呼叫中心/微博 第三方数据
互联网/电信/医疗/交通/咨询报告 客户标签
对公客户细分
商机挖掘信息 零售客户评分
客户贡献度
客户风险测评
产品运营KPI
黑名单 知识图谱 品牌美誉度
第三方资信
用户位置 用户消费倾向
大数据平台参考架构
数据 采集
数据 转换
商业智能(BI) 平台管理
结构化数据 非结构数据 第三方数据
客户数据 账务数据 日志 呼叫中心语音 微信 微博
流式数据 刷卡事件 结构化转换
统计/关联
非结构转换 文本 XML/JSON
多媒体转换 语音转文本 视频摘要
半/非结构数据挖掘
文本分析 分词
互联网分 搜索 析
多媒体分 析 音频分析 视频分析 语义
NLP
社交网络 推荐引擎
影像分析
过滤/匹配
结构化数据挖掘
分类 聚类
预测 关联
流式数据 处理
流处理 ESP/CE
P RTD 报表 多维分析引擎
数据服务
实时查询 批量查询 访问框架
分布式缓存
数据可视
数据探察
数据多维展示 元数据管理
作业调度
数据安全管理
网站点击流
数据集市
实时计算
交互式探索 多维关联
数据聚集
应用计算
数据
存储 基础数据区
实时查询区 公共访问区
应用数据区
数据 采集
数据 转换
商业智能(BI) 平台管理
结构化数据 非结构数据 第三方数据
客户数据 账务数据 日志 呼叫中心语音 微信 微博
流式数据 刷卡事件 结构化转换
统计/关联
非结构转换 文本 XML/JSON
多媒体转换 语音转文本 视频摘要
半/非结构数据挖掘
文本分析 分词
互联网分 搜索 析
多媒体分 析 音频分析 视频分析 语义
NLP
社交网络 推荐引擎
影像分析
过滤/匹配
结构化数据挖掘
分类 聚类
预测 关联
流式数据 处理
流处理 CEP RTD 报表 多维分析引擎
数据服务
实时查询 批量查询 访问框架
分布式缓存
数据可视
数据探察
数据多维展示 元数据管理
作业调度
数据安全管理
网站点击流
数据集市
实时计算
交互式探索 多维关联
数据聚集
应用计算
数据
存储 基础数据区
实时查询区 公共访问区
应用数据区
大数据平台总体框架-技术视角
MQ
kafka FTP Sqoop Flume FTP CrawlerHDFS
HBASE
M/R Spark
Storm Miner(Mahout/MLLib/HiGraph)
SQL on SAS
Hadoop Solr
Cognos
HIVE/Impala 分布式
IMDB
Tableau D3.js
GP
Yarn
M/R Spark
HIVE/Impala
Content
大数据发展趋势
4
2 华为大数据平台关键技术
1
华为大数据平台案列详述
3 华为大数据平台行业实践
Content
华为大数据平台案列详述
4
TD数仓卸载
HDS 运维日志实时分析 影像存储
智能运维业务
现有数据仓库应用负载卸载
--现状和挑战 一般采用贴源层+基础层+应用层三层数据 架构
数据贴源层存放贴源数据
数据贴源层数据除了用来加工为基础层数据 外,一般很少被下游应用直接用到,可视为冷数 据
数据贴源层占据EDW宝贵存储资源
贴源跑批占据大量EDW系统资源
现状
伴随业务的增长,数据增长快,扩容压力大
通常采用国外厂商一体机,存储成本高,扩 容成本大
跑批占用数据仓库时间窗口越来越长,可使 用时间窗口越来越少,给数据仓库的使用带来巨 大压力
挑战 数据仓库
应用层 基础层
贴源层
一体机
数据转换
核心 信贷 中间业务 信用卡 网银
数据源
FTP 卸载加载 作业管理
ETL平台
CRM 信用评级 绩效考核 精准营销 管理报表 下游应用
数据转换
现有数据仓库应用负载卸载
—联合创新方案 卸载平台能够满足一定的处理时间窗口要求
卸载平台具有较低的每TB数据成本
卸载平台具备非常好的水平扩展能力
卸载平台支持通用X86服务器
卸载平台能够提供较好的企业级特性(可靠 性、易管理性、易用性),满足一定的性能SLA
卸载平台要求
与金融机构一起联合创新,将数据仓库系统 中的贴源批处理过程迁移至基于通用X86服务器 的使用大数据技术的Hadoop或MPPDB平台 注:方案过程见动画
联合创新方案
卸载平台 基础层
开放,不被单一供应商锁定;
提高数仓体系拓展能力、降低拓展成本
降低数据存储成本
减少数仓跑批时间窗口,提高数仓使用效率
客户价值 数据仓库
应用层 基础层 贴源层
一 体 机
核心 信贷 中间业务 信用卡 网银
数据源
CRM 信用评级 绩效考核 精准营销 管理报表 下游应用
服务器 X86
ETL ETL
贴源层 FTP
Content
华为大数据平台案列详述
4
TD数仓卸载
HDS 运维日志实时分析 影像存储
智能运维业务
历史数据应用四种模式
应用模式 用户群体 应用场景
数据归档 行内用户 组件内生产数据清理后,在历史数据区进行归档保存
在线查询
在线同步(访问数据库)
(响应时间:<=60(秒))
行内用户 行外用户
历史数据在线快速查询;查询条件比较精确;响应时间比较 紧迫;
在线异步(访问数据库)
(响应时间:>60(秒) 查询条件比较精确;响应时间不是非常紧迫;访问频率比较 高;
在线异步(访问文件)
(响应时间:>300(秒)
访问频率:<=50次/天)
查询条件比较宽泛;响应时间不是非常紧迫;访问频率比较 低
批量供数 外部监管 (部分包
括行内用户) 月末/季末的银监会、 外管局、审计署的外部监管数据需求;
数据需求比较确定、供数操作频率比较固定、供数格式比较 固定
零星供数 行内用户 数据需求不确定、供数操作频率不固定、数据结果集不确定。
HDS区整体视图
归档
批量供数
在线查询
应用计算区
指标计算区
数据源
源数据区
查询服务区
统一在线查询
HDS区查询集群
在线同步查询区
在线数据 (HBASE)
在线同步查 询服务
在线异步查 询服务 主档全量
主档增量 明细增量
数据源
源数据区
HDS区归档集群
接入数据区 组合计算区
多表关联 Hbase装载 明细增量
主档全量 主档增量 主档全量
主档增量 明细增量
应用加工计算区(Hive) HQL数据加工 MR数据加工
批量供应数据区 表截面文件 加工数据文件
数据源
源数据区 主档全量 主档增量 明细增量
归档数据区(Hive)
x系统.x表归档数据 x系统.x表归档数据
HDS区归档集群
接入数据区 明细增量 主档全量 主档增量
应用加工计算区(Hive) HQL数据加工 MR数据加工
批量供应数据区 表截面文件 加工数据文件
归档数据区(Hive)
x系统.x表归档数据 x系统.x表归档数据
HDS区归档集群
接入数据区 组合计算区
多表关联 Hbase装载 明细增量
主档全量 主档增量
应用加工计算区(Hive) HQL数据加工 MR数据加工 归档数据区(Hive)
x系统.x表归档数据 x系统.x表归档数据
关键技术:HBase二级索引+Phoenix+Spark
HBase二级索引特性支持在非RowKey列上建立索引,大幅提高检索 速度。
使用Phoenix为HBase提供基础SQL能力,在使用HBase高速查询能力 的同时,降低系统的学习使用成本。
构建统一的混合结构数据存储平台,通过Spark支持全量业务数据+
外部数据的挖掘分析。
高性能、高并发:HBase规模可达到数十亿行以及数百万列,同时 读、写访问可以达到实时级别。
提供SQL支持:降低学习成本和系统改造成本。
易扩展:HBase基于HDFS文件系统,性能线性增长,利于横向扩展。
HBase:较开源产品提供二级索引、Region多点分割、一千公里容灾 备份等增强特性,其中二级索引特性已被社区接受并纳入Phoenix组 件。
Spark:华为贡献了Spark on HBase( Astro)特性,可以使用SparkSQL 操作HBase数据,执行高效、复杂的查询操作,为HBase提供在线分 析引擎。
特性价值 特性描述
UserTable RowKey ColumnFamily
colA colB colC a00001 *****
a00002 *****
a00003 *****
a00004 *****
a00005 *****
a00006 *****
目 标 行 数 据 扫 描 区 域
无索引:“Scan + Filter”,扫描大量数据
UserTable RowKey
ColumnFamily colA colB colC a00001 *****
a00002 *****
a00003 *****
a00004 *****
a00005 *****
UserTable_idx RowKey CF
a00001coluA*****a00001 a00001coluA*****a00002 a00001coluA*****a00003 a00001coluAxxxxxa00004 a00001coluA*****a00005
Content
华为大数据平台案列详述
4
TD数仓卸载
HDS 运维日志实时分析 影像存储
智能运维业务
项目背景与现状
问题
数据量巨大,效率低:日志收集与检索的效率低、成本高,
无法满足故障排查问题定位的快速运维需求。因日志数据量 巨大,监控系统目前只对日志文件进行基本的监控,只对日 志大小、日志更新时间进行监控。
数据类型复杂:传统关系型数据库不能处理半结构化或者非 结构化数据
Splunk日志分析: Splunk日志分析工具仅支持离线的、片 段的日志分析,且许可成本较高, 仅应用于少量的应用系统 , 不满足应用日志分析需要。
现状
每日产生大量的应用日志,分布于各应用系统及历史磁带
监控系统目前对日志文件进行基本的监控,只对日志大 小、日志更新时间进行监控,利用价值不大。
场景特点
实时性要求高(高吞吐、低延迟)
*实时:达到秒级以内
大数据量的离线分析(总数据量、日增数据量都不断增长) *历史回溯:一小时以外的历史统计分析
*历史日志检索:日志快速检索,故障快速定位
47
47 建立企业级的日志采集、存储、分析一体化平台,运用数据建模、离线分析、实 时流计算、搜索引擎等技术,实现业务性能分析、运维风险评估、实时预警监 控、日志快速检索等功能,促进业务能力与运维水平的提高
业务应用 日志离线分析
• 业务性能分析
• 运维风险评估
• 模型训练
历史日志检索
• 日志集中存储
• 日志快速检索
• 故障快速定位 日志实时分析
• 实时风险探测
• 业务实时监控
• 模型训练 一体化日志分析平台
项目目标和定位
本期项目内容
1、日志采集子平台
搭建企业级的分布式日志采集平台
支持文件、Syslog等主流日志源
实现日志文件的实时采集与离线采 集
日志采集平台架构灵活扩展
2、历史日志文件检索平台
历史日志文件分布式存储
基于开源搜索引擎Lucene,实现 历史日志文件检索
支持全文检索与可配置的文本分析
3、离线日志分析平台
4、实时日志分析预警平台
使用流计算技术实现在线日志分析平台
提供实时接口与监控等第三方应用系统 对接,实现实时分析结果的消费
实时风险探测
业务实时监控
项目需求
基于HADOOP搭建离线日志分析平台
分析模型设计与训练优化
日志分析结果报表展示
运维风险评估
业务性能分析
技术方案-系统逻辑架构
X86服务器 X86服务器 X86服务器 X86服务器
业务系统
服务器 应用日志 系统日志
网银 渠道 柜面
Flume Kafka Storm
Hive MapReduce
流计算集 群
风险实时预警与监控 业务实时反欺诈监控
RDB
ETL 批量 HDFS
离线分析集群
实时处理 实时搜索 消息中间件 分析模型
HBase 基于大数据平台的二次开发应用
离线分析
网络日志
……
……
集中监控系统 ECC大屏 日志查询平台
故障协同处理
Lucene Solr 日志搜索集群
Phoniex
50
50
技术方案—数据处理流程
APP WEB DB
个人网银
HDFS 分布式存储
M/R HBASE 报表工具
SOLR 日志检索平台
……
Storm2 Storm1
Storm集群
KAFKA Redis
集中监控
个人网银
ETL
FLUME
(T+1)
FLUME 实时计算结果
Phoenix
实时告警 大屏展示
入侵检测 安全审计
精准营销 实时推荐 消息中间件
WebService
Content
华为大数据平台案列详述
4
TD数仓卸载
HDS 运维日志实时分析 影像存储
智能运维业务
影像存储/查询应用场景
场景特点
1、影像平台(也称影像处理平台、影像管理平台)构 建了银行非结构化数据的管理平台,具有综合存储管理 银行海量非结构化数据的能力。
2、影像平台具备高效的查询能力。
3、影像平台具备强大的内容分析能力。
基本功能
会 计 业 务 应 用
信 贷 业 务 应 用
国 际 结 算 业 务
信 用 卡 业 务
票 据 业 务
大 额 审 批 业 务
费 用 单 证 审 批
流 程 银 行
影像存储/查询平台
分析
存储 查询
问题
小文件存储压力:海量的小文件对存储系统带来了巨大的存储 压力;归档、备份时需要对海量小文件进行一次扫描,耗时会 相当长,可能会持续数天。
查询性能受限:传统平台越来越难以应付影像平台对高并发、
低时延的查询需要。
分析性能不足:传统平台的计算资源集中在数据库服务器,分 析能力差、扩展性差。
现状
影像平台由数据库服务器、存储系统拼接而成,元数据与影像 数据分离。
在金融行业影像大多为小文件(几K到几M) ,个数多(千万级以 上),数据量增长迅速(TB)。
计算能力集中在数据库服务器。
影像平台支持高并发、低时延查询需求日益强烈。
影像存储/查询的现状与问题
离线存储 在线存储
数据库服务器
应用服务器
影像存储/查询的技术方案
File File File File File File File File
File File
Files
HBase FileStream (HFS)
统一文件 读写接口
HBase Raw
API MOB
File File File File
HBase
HDFS
File File
HFile (MOB)
小文件
大文 件
小文 件自 合并
1、对于每一个文件,都会相应在HBase表中插入一条记录(Rowkey, 客户信息等);
2、MOB是HBase本身提供的一种关于小对象的存储优化方法;通过将MOB方法把较小的文
件(即100KB到10MB大小的数据)合并后直接以HFile的格式存储在文件系统HDFS上;
建立统一的业务处理平台:
银行影像系统的应用将解决储蓄业务凭证、部分 会计业务凭证和信用卡等的缩微归档和自动监 督,也考虑了对国际单证的业务凭证的处理及归 档储存。
灵活的查询与统计:
对整个监督操作中的中间过程、结果及缩微的票 据图像进行方便、灵活、高效的查询;
并对业务数据及采集数据进行统计分析,生成详 细的分析资料。
特性价值 特性描述
一体化的影像平台兼容了存储与计算两种需 求:
1、HBase的MOB方法实现小文件自合并的,解决 大量小文件对HDFS的NameNode内存占用压力。
2、华为HBase FileStream特性确保了影像存储 系统同时兼容大文件与小文件。
3、HBase的低时延、高并发特性满足了影像查 询的需求。
关键技术:HBase小文件存储
HBase MOB
File File File File
HFile
(MOB)
HDFS Raid
Appendable-SequenceFile小文件合并存储
HBaseASF
HDFS
HBase Like API HBase File System
HBase like API
端到端的企业数据(影像/文档 等)归档查询解决方案,全面 解决存储效率、查询性能和可 靠性容灾问题。
功能
• 高效存储
支持Appendable-SequenceFile 小文件合并存储
支持HDFS-RAID和高效
• 快速查询
HBase和HDFS小文件存储方 案相结合,提供快速查询。
• 易开发
提供类HBase API接口,用户 无需感知文件底层存储方式。
• 高可靠
提供HFDS容灾方案。