16.5.1 如何防止数据误删除
背景信息
在大数据应用场景中,往往存在防止数据误删除的诉求。用户可以使用以下两种方 式,实现大数据场景下的数据误删除保护。
● HDFS trash
大数据应用场景,客户可以使用Hadoop HDFS文件系统的垃圾回收功能,以防止 通过Hadoop fs shell指令的数据误删操作。
在基于华为云对象存储服务OBS的Hadoop大数据系统中,客户可以兼容使用 Hadoop FS原生的垃圾回收功能。
说明
只能处理“hadoop fs -rm”shell命令删除的目录和文件。
● OBS快速删除
大数据应用场景,所有通过OBS DELETE API删除的目录和文件,都可以利用“快 速删除”能力,一方面实现高效的删除操作,另一方面可以防止误删除。
说明
只能在OBS并行文件系统实施,利用Rename原子操作。OBS并行文件系统Rename原子操 作速度快于删除操作,且可以对目录一次性执行。
HDFS trash 配置方法
步骤1 启用Hadoop FS shell下的垃圾回收功能。
Hadoop FS垃圾回收机制开启,文件core-site.xml,配置内容:
● 当开启垃圾回收机制时,执行hadoop fs -rm obs://obs-bucket/test命令,会将test目录转移 到obs://obs-bucket/user/${usernamne}/.Trash/Current垃圾目录下。
配置生命周期规则: 指定“按前缀配置”; 前缀设置,如:user/userNameX/.Trash/
Current; 设置过期删除天数,如:7天。
----结束
A 修订记录
发布日期 修订记录
2021-10-30 第十六次正式发布。
本次更新说明如下:
● 新增“大数据场景下使用OBS实现存算分离”最佳实践。
2021-09-30 第十五次正式发布。
本次更新说明如下:
● 新增“小程序直传OBS”最佳实践。
● 新增“将WordPress远程附件存储到OBS”最佳实践。
● 新增“Web端通过PostObject接口直传OBS”最佳实践。
2021-07-30 第十四次正式发布。
本次更新说明如下:
● 新增“OBS之间数据迁移”最佳实践。
2020-08-31 第十三次正式发布。
本次更新说明如下:
● 新增“通过Nginx反向代理访问OBS”最佳实践。
2020-03-24 第十二次正式发布。
本次更新说明如下:
● 新增“OBS数据一致性校验”最佳实践。
2019-12-14 第十一次正式发布。
本次更新说明如下:
● 新增“使用预签名URL方式访问OBS”最佳实践。
2019-11-05 第十次正式发布。
本次更新说明如下:
● 新增“企业数据权限控制 > 业务部门之间桶资源隔离”章节。
发布日期 修订记录
2019-10-09 第九次正式发布。
本次更新说明如下:
● 新增“企业数据权限控制 > 给业务部门授予独立的资源权限”章 节。
2019-07-06 第八次正式发布。
本次更新说明如下:
● 新增“性能优化最佳实践”章节。
2019-01-31 第七次正式发布。
本次更新说明如下:
● 新增“使用AnyBackup Cloud备份方案”章节。
2018-12-07 第六次正式发布。
本次更新说明如下:
● 新增“OBS最佳实践汇总”章节。
● OBS服务域名(Endpoint)地址切换,同步刷新本文中的示例链 接。
2018-09-30 第五次正式发布。
本次更新说明如下:
● 新增“企业数据权限控制”章节。
2018-08-30 第四次正式发布。
本次更新说明如下:
● 新增“通过CDN加速访问OBS”章节。
2018-07-30 第三次正式发布。
本次更新说明如下:
● 优化“在ECS上通过内网访问OBS”章节。
● 优化“使用自定义域名托管静态网站”章节。
2018-06-30 第二次正式发布。
本次更新说明如下:
● 新增“在ECS上通过内网访问OBS”章节。
2018-06-12 第一次正式发布。
最佳实践 A 修订记录