当前位置: 首页 > news >正文

有创意的包装设计沈阳seo网站推广优化

有创意的包装设计,沈阳seo网站推广优化,网站建设四个步骤,网络营销师资格证有什么用0 微盟删库跑路 除了快、准和省#xff0c;数据中台须安全#xff0c;避免“微盟删库跑路”。 2020年2月23日19点#xff0c;国内最大精准营销服务商微盟出现大面积系统故障#xff0c;旗下300万商户线上业务全停#xff0c;商铺后台所有数据被清。始作俑者是一位运维数据中台须安全避免“微盟删库跑路”。 2020年2月23日19点国内最大精准营销服务商微盟出现大面积系统故障旗下300万商户线上业务全停商铺后台所有数据被清。始作俑者是一位运维在生产环境数据库删库而刚上市不久的微盟就因此遭受巨大的损失2月23日宕机以来市值蒸发30亿港元。最贵的安全事件。数据中台咋防止类似事件 如何解决数据误删除如何解决敏感数据泄露如何解决开发和生产物理隔离 1 数据备份与恢复 数据中台的数据几乎都存储在HDFS即使实时数据存储于Kafka也会归档HDFS因为要保存历史数据进行回算或补数据。所以核心问题是HDFS数据备份。 HDFS数据备份可基于HDFS 快照 DistCp EC实现。 分为两个集群 线上集群 数据加工任务访问 冷备集群 考虑存储成本采用EC存储 存储采用HDFS默认的3副本。 EC存储原理图 EC存储基本原理 Hadoop3.x正式引入EC存储一种基于纠删码实现的数据容错机制通过将数据分块然后基于算法计算一些冗余校验块当其中一部分数据块丢失时可通过这些冗余校验块和剩余数据块恢复丢失数据块。 案例 如有三个数据块分别存储1、2和3。担心其中一个数据块坏了丢失内容。所以增加一个块这块存储内容是前面三个数据块之和。若任一数据块坏了可根据现有数据块计算出丢失的数据块内容。 如1丢失可根据6-3-2计算出1当然这只是最简单EC算法只能容忍一个数据块丢失实际EC算法更复杂。 EC存储在不降低可靠性前提下与HDFS 3副本可靠性相同通过牺牲一定计算性能计算校验块消耗额外计算资源将数据存储成本降低一半适合低频访问的冷数据存储如备份数据。 线上集群的数据同步到冷备集群 先了解快照基本原理才能理解后续的数据同步。 Hadoop 2.x支持对某文件或目录创建快照几s内完成一个快照操作。快照前先要对某目录或文件启用快照此时对应目录下会生成.snapshot文件夹 上图对/helloword目录启用快照然后创建一个s1的备份。此时在.snapshot下存在s1文件。然后删除/helloword/animal/lion文件时HDFS会在animal目录创建differ文件并把diifer文件关联到s1备份最后把lion文件移动到differ目录下。 HDFS快照实际只记录了产生快照时刻之后的所有的文件和目录的变化适合每天只有少数文件被更新的数据中台代价和成本也低。 有了快照后就要把快照拷贝到冷备集群这里选择Hadoop自带的DistCp因为它支持增量数据的同步。它有differ参数可对比两个快照仅拷贝增量数据。同时DistCp是基于MapReduce框架实现的数据同步工具可充分利用Hadoop分布式计算的能力保证数据拷贝性能。 数据从线上集群拷贝到冷备集群 首先对于第一次开始数据备份的文件我们会先创建一个快照然后利用DistCp 拷贝全量的备份数据到冷备集群。然后后续的每一天我们都会定时生成一个快照并和前一天的快照基于distcp --differ 参数进行对比将有更新的部分再同步到冷备集群。同步完成以后会删除前一天的快照这样就完成了每日数据的增量同步。 这里需要特别注意的是拷贝数据会对线上I/O 产生比较大的压力所以尽量在任务运行的低峰期进行同步比如白天12点到晚上24点之间的时间同时DistCp的bandwidth参数可以限制同步的速率你可以根据I/O 负载和数据同步速率动态调整。比如说I/O 利用率100%应该限制数据拷贝带宽为10MB/s。 数据中台中文件目录的备份光这些还不够还要备份数据的产出任务表相关的信息 任务的备份要保存任务代码、任务的依赖关系、任务调度配置及任务告警、稽核监控等信息表的备份主要是备份表的创建语句 网易提供产品化解决方案数据开发可在提供的数据管理平台选择一张表创建备份然后系统自动完成任务、文件和表的备份。平台也提供一键恢复功能系统自动帮数据开发创建任务和表拷贝数据从冷备集群到线上集群。 什么样数据应备份 数据的备份策略应和数据资产等级打通对核心数据资产数据中台应强制备份。 假如数据没备份但误删除还有补救方法 试下这机制 2 垃圾回收箱设计 HDFS本身提供垃圾回收站功能意外删除的文件可在指定时间内进行恢复。 Core-site.xml添加如下配置开启默认关闭 property namefs.trash.interval/name value1440/value /property 当HDFS一旦开启GC功能用户通过命令行执行rm时HDFS会将文件移到 /user/[用户名]/.trash/current/ 目录。这目录下文件会在fs.trash.interval配置时间过期后被系统自动删除。需恢复文件时只需把 /user/[用户名]/.trash/current/ 被删除文件移到要恢复的目录。 2.1 HDFS垃圾回收机制缺陷 只支持通过命令行执行rm对在代码中通过HDFS API调用Delete接口时会直接删除文件GC机制并不生效。尤其Hive中执行drop table删除一个Hive内表此时删除的数据文件并不会进入trash目录巨大安全隐患。 改造后的HDFS回收站原理图 推荐对HDFS的Client修改对Delete API通过配置项控制改成跟rm相同语义。即把文件移到trash目录。对Hive上的HDFS Client进行替换确保用户通过drop table删除表和数据时数据文件能正常进入HDFS trash目录。 这样即可解决数据误删问题。但HDFS回收站不宜保留时间过长因为回收站中的数据还是三副本配置会占用过多存储空间。所以配合解决方案回收站保留24h内数据解决数据还没来得及被同步到冷备集群误删除的情况。 对一天以上数据恢复建议采取基于冷备集群的数据备份来恢复。 3 精细化的权限管理 避免敏感数据泄露。数据权限是数据中台实现数据复用的前提和必要条件。若刚开始系统没开启权限后期接入权限任务改造成本很高几乎涉及所有任务。权限问题在数据中台构建之初须提前规划好。 数据中台支撑技术体系基于OpenLDAP Kerberos Ranger 实现的一体化用户、认证、权限管理体系。 数据中台用户、认证、权限系统架构 如有几千台机器却没个统一的用户管理服务当想添加一个用户需到几千台服务器创建初始化用户OpenLDAP解决了这问题。轻量化的目录服务数据以树型结构存储提供高性能查询服务适合用户管理。 OpenLDAP 树型目录架构示意图 在OpenLDAP中可创建用户User和组(Group)对于每个用户会有唯一的uid对于每个组通过Memberuid我们可以添加一个用户到一个组中。 大数据平台上注册一个用户平台会自动生成一个OpenLDAP用户当该用户加入某项目会将该项目对应的Group下增加一个Memberuid。假设大漂亮加入da_music项目da_music的Group下会增加Memberuid:1002。 Hadoop和OpenLDAP集成 Hadoop可使用LdapGroupsMappings同步LDAP创建的用户和用户组在LDAP中添加用户和组时会自动同步到Hadoop集群内的所有机器。 非安全网络中除了客户端要证明自己是谁对于服务端而言同样也需要证明我是我。为实现双向认证生产环境启用安全等级最高的基于共享密钥实现的Kerberos认证。 Kerberos认证原理 进游乐场先要身份证实名购买与你身份绑定的门票。每个游乐设施前都有票据授权机器刷门票授权机器会生成该游乐设施的票据就可玩这游乐设施。 想玩另外一个游乐设施也要刷门票生成对应游乐设施票据。门票有效期内尽情玩游乐设施一旦超期需重新购买门票。 Kerberos 认证原理 TGTTicket-granting ticket可看作门票Client首先使用自己的密钥文件Keytab和用户标识Principal去认证服务器AS购买TGT认证服务器确认是合法的用户Client会获得TGT而这个TGT使用了TGSTicket-granting service的Keytab加密所以Client是没办法伪造的。 在访问每个Server前Client需要去票据授权服务TGS刷一下TGT获取每个服务的票据STST使用了Client要访问的Server的Keytab加密里面包含了TGS 认证的用户信息Client是无法伪造ST的。 最后基于每个服务的票据以及客户端自己生成的加密客户认证信息Autenticator访问每个服务。每个Server都有归属于自己的KeytabServer只有使用Server自己的Keytab才能解密票据ST这就避免了Client传给了错误的Server。 与此同时解密后票据中包含TGS认证的客户信息通过与Authenticator 中Client生成的客户信息进行对比如果是一致的就认为Client是认证通过的。 Hadoop中使用Kinit 工具完成TGT的获取TGT 一般保存24小时内。Kerberos对Hadoop集群来说是一个非常安全的认证实现机制。 Kerberos 使用的是Principal标识用户的它又是 怎么和OpenLDAP中的用户打通的呢 我们访问HDFS使用PrincipalHadoop可通过配置hadoop.security.auth_to_local将Principal映射为系统中的OpenLDAP的用户。用户注册时平台会为每一个新注册的用户生成Principal以及相对应的Keytab文件。 认证完成后要解决哪些客户可以访问哪些数据的问题。使用Ranger解决权限管理。 因为Ranger 提供了细粒度的权限控制Hive列级别基于策略的访问控制机制支持丰富的组件以及与Kerberos的良好集成。权限管理的本质可以抽象成一个模型“用户-资源-权限”。 数据就是资源权限的本质是解决哪些人对哪些资源有权限。 在Ranger中保存了很多策略每一个资源都对应了一条策略对于每个策略中包含了很多组许可每个一个许可标识哪个用户或者组拥有CRUD权限。 讲完了用户、认证和权限实现机制那你可能会问权限的申请流程是什么样子的呢? 在数据中台中每一张表都有对应的负责人当我们在数据地图中找到我们想要的数据的时候可以直接申请表的访问权限然后就会发起一个权限申请的工单。表的负责人可以选择授权或者拒绝申请。申请通过后就可以基于我们自己的Keytab访问该表了。 由于数据中台中会有一些涉及商业机密的核心数据所以数据权限要根据数据资产等级制订不同的授权策略会涉及到不同的权限审批流程对于一级机密文件可能需要数据中台负责人来审批对于一般的表只需要表的负责人审批。 4 操作审计机制 进行到第三步权限控制的时候其实已经大幅降低了数据泄露的风险了但是一旦真的出现了数据泄露我们必须能够追查到到底谁泄露了数据所以数据中台必须具备审计的功能。 由于用户每次访问数据都要对权限进行验证所以在校验权限的同时可以获取用户访问表的记录Ranger支持审计的功能用户的访问记录会由部署在各个服务HDFSHBase等等上的插件推送到Audit Server上然后存储在Solr中Ranger提供了API接口查询表的访问记录。但是必须指出的是Ranger开启Audit 后会对服务内的插件性能产生影响。 除了敏感数据泄露的风险我还看到一些企业想要对开发和生产环境进行物理隔离。为什么企业会有这个诉求呢 首先很多传统公司的数据开发都是外包人员从企业的角度不希望数据开发直接使用生产环境的数据进行测试从安全角度他们希望生产和测试从物理集群上完全隔离数据脱敏以后给开发环境进行数据测试。 其次涉及一些基础设施层面的组件升级比如HDFS、Yarn、Hive、Spark等贸然直接在生产环境升级往往会造成兼容性的事故所以从安全性的角度企业需要有灰度环境而用开发环境承担灰度环境的职能是一个不错的选择。 最后虽然可以为生产和开发环境设置不同的库和队列从而实现隔离避免开发任务影响线上任务和数据但会导致任务上线需要改动代码所以最理想的还是实现开发和生产环境两套集群同一套代码在开发环境对应的就是开发集群提交上线后就发布到生产集群。 这些就是企业希望开发和生产集群物理隔离的原因那我们接下来看一看该如何满足。 5 开发、生产集群物理隔离 两类不同企业群体。 5.1 安全性要求效率 传统企业尤其金融行业严格禁止数据开发使用线上数据测试他们希望有两套完全不同环境包括操作平台任务在开发环境进行开发配置任务依赖设置稽核规则和报警然后由运维审核后一键发布到生产环境。 当数据开发要对数据测试时可同步生产环境的局部数据部分分区数据会脱敏。 该模式部署架构 开发、测试环境本身是两套完全独立平台因为每次数据测试都要同步生产环境的数据所以数据开发效率有较大影响但优势在对数据安全实现最高保护。 很多企业需 5.2 兼顾安全、效率 他们没法接受同步生产环境数据而是要在开发环境能直接使用线上数据测试。 部署架构 大数据平台和任务调度系统Azkaban都是一套然后Hive、Yarn和HDFS都是两套两套集群通过Metastore共享元数据。 好处 一个集群的Hive可直接访问另一个集群的数据。在同一Metastore中 开发环境数据在dev库生产环境数据在online库 用户在代码不需指定库任务执行时根据运行环境自动匹配库。如 在开发环境执行Hive默认用dev库表在生产环境执行Hive默认用online库表 从而实现不需改代码实现一键发布。 5.3 选型 对安全性要求高推荐第一对效率要求高同时兼顾一定安全性推荐第二 6 总结 数据备份要兼顾备份性能、成本推荐EC存储作为备份集群的存储策略数据权限要实现精细化管理基于OpenLDAPKerberosRanger可实现一体化用户、认证、权限管理开发、生产环境物理隔离两种部署模式权衡效率、安全进行选择 参考 HDFS EC 存储介绍
http://www.dnsts.com.cn/news/75679.html

相关文章:

  • 清远住房和城乡建设局网站福州建设人才网站
  • 建设工程168网站码支付wordpress前端
  • 网站打开速度太慢长春网站建设模板服务
  • 网站项目建设背景聊天室网站模板
  • 重庆市建设工程信息网站诚信分湖北省电力建设三公司网站
  • 博客的网站页面设计李洋网络做网站怎么样
  • 网站首页的动态怎么做无锡市政建设集团有限公司网站
  • 做海报哪个网站的素材多世界500强企业名单排名
  • 无锡电商网站设计免费网站建设价格费用
  • 网站首页图片素材长图营销型网站建设调查表
  • 北京专业网站建设白云区网站开发公司电话
  • 怎么做网站推中信建设有限责任公司企查查
  • 怎么利用婚庆网站做营销泰安seo服务
  • 信息图表网站重庆建设摩托车质量怎么样
  • wordpress now 1.5seo网站开发注意事项
  • 南通网站建设温州网页设计公司
  • 嘉兴市做外贸网站的平台网站建设收费
  • 企业网站维护兼职珠海网站制作公
  • 西宁手机微网站开发一个公司官网一般多少钱
  • 做的比较好的货运网站网站表单点击切换
  • 网站制作设计收费标准wordpress 网站显示加载时长
  • 分享10个国外优秀的平面设计网站模板网站与定制网站的定位
  • 做h5那个网站模板好免费网站整站模板源码
  • 网站设计有哪几种设计方法东莞市做网站的公司
  • 教育类的网站方案wordpress首页菜单怎么设置
  • 公司网站建设西安微分销系统开发那家好
  • 做网站的企划书网站建设项目确认书
  • 上海品划网站建设有限公司六安开发区网站
  • 网站管理登录系统wordpress给所有用户发邮件
  • 银川网站建设一条龙做公司网站的专业公司深圳