安全性对于在Hadoop生态系统中存储和处理敏感数据的组织来说至关重要。
许多组织必须遵守严格的企业安全策略。
Hadoop是一个用于数据存储和使用商品服务器对集群进行大规模处理的分布式框架。向Hadoop添加安全性具有挑战性,因为并非所有的交互都遵循传统的客户端 - 服务器模式。
在Hadoop中,文件系统是分区和分布式的,需要在多个点进行授权检查。
一、提交的作业后,在与客户端验证并提交作业的节点不同的节点上执行。
二、次要服务,如工作流系统代表用户访问Hadoop。
三、Hadoop集群扩展到数千台服务器和数万个并发任务。
Hadoop供电的“Data Lake”可以为新一代大数据分析和洞察提供坚实的基础,但也可以增加对组织数据的访问点数量。随着不同类型的企业数据被集中到中央存储库中,固有的安全风险可能增加。
Hortonworks了解每个业务的安全和治理的重要性。
为了确保客户的有效保护,Hortonworks使用基于五个核心安全功能的整体方法:
一、管理
二、身份验证和外围安全
三、授权
四、审计
五、数据保护
几乎每个行业的普遍共识是,数据是竞争优势的一个重要的新驱动力。 Hadoop通过提供低成本,大规模的数据存储和处理在现代数据架构中发挥关键作用。成功的Hadoop旅程通常从数据架构优化或新的高级分析应用程序开始,这导致形成所谓的Data Lake。由于来自机器传感器,服务器日志,点击流数据和其他来源的新的和现有类型的数据流入Data Lake,它作为一个基于共享Hadoop服务的中央存储库,提供对广泛和多样化数据集的深入组织洞察力。
需要用全面的安全保护DataLake是清楚的。随着大量多样化的数据流入Data Lake,它将存储重要的和通常高度敏感的业务数据。然而,为Data Lake提供数据和操作系统的外部生态系统是高度动态的,并可能定期引入新的安全威胁。多个业务部门的用户可以自由访问数据湖,并使用自己选择的方法来改进,探索和丰富其数据,进一步增加违约风险。任何违反此企业范围数据的行为都可能导致灾难性后果:隐私侵犯,监管违规或重要企业智能的妥协。为了防止损害公司的业务,客户,财务和声誉,Data Lake应该满足与任何传统数据环境相同的高标准的安全性。
零碎的保护对于一个DataLake来说不如它们在传统存储库中更有效。有效的Hadoop安全性取决于围绕安全的五大支柱的整体方法:管理,认证和边界安全,授权,审计和数据保护。
企业级安全要求 4A
安全支术 | 方法 | what ,why how |
管理 | 中央管理和一致性的安全性 | 如何在整个集群中设置策略 |
认证/周边安全 | 验证的用户和系统 | 谁是我/证明它 |
授权 | 提供对数据的访问 | 我能做什么 |
数据保护 | 保护静止和运动中的数据 | 如何加密数据静止和流通的数据 |
您不能通过使用各种点解决方案实现跨Hadoop堆栈的全面保护。安全性必须是构建Data Lake的平台的一个组成部分。这种自下而上的方法使得可以通过中心管理点来强制和管理跨越堆栈的安全性,从而防止间隙和不一致。这种方法对于Hadoop实现尤为重要,其中新的应用程序或数据引擎总是以新的开源项目的形式出现 - 这种动态场景可能快速加剧任何漏洞。
Hortonworks通过在Hortonworks数据平台的基础架构中构建集中的安全管理和管理,帮助客户保持对企业数据的高级保护。 HDP提供了一个企业级的数据平台,具有跨越安全,治理和操作的丰富功能。 HDP包括强大的数据安全功能,可跨组件技术工作,并与预先存在的EDW(Enterprise Data Warehouse 数据仓库),RDBMS关系数据库管理系统(Relational Database Management System)和MPP大规模并行处理系统 (Massively ParallelProcessing),,系统集成。 通过在平台级别实施安全性,Hortonworks确保跨堆栈的所有应用程序一致地管理安全性,从而简化添加或删除Hadoop应用程序的过程。
Hortonworks大数据平台
治理和整合 | 数据访问 | 安全 | 操作 | ||||||||
mr | pig (脚本) | sql(hive/tez hcatalog ) | nosql(hbase/accumutlo) | steam(storm) | search (solr) | 在内存分析lsv引擎 |
| 认证 授权 审计 数据保护 | 数据管理和监控 | ||
数据工作流生命周期和治理 | yarn :data operation system
hdfs
数据管理 |
| 作业调度(ooize) |
HDP使用Apache Ranger提供集中的安全管理和管理。Ranger管理门户是安全管理的中心接口。您可以使用Ranger创建和更新策略,然后存储在策略数据库中。 Ranger插件(轻量级Java程序)嵌入在每个集群组件的进程中。例如,Apache Hive的Ranger插件嵌入在HiveServer2中:
Apache Ranger架构:
Ranger 统一鉴权门户 由二部分组成:审计服务器 和ranger策略服务器
基中策略服务器提供了:restapi 提供服务权限的统一治理
企业服务用户通过 审计服务器来看查看审计结果
通过ranger 的 ranger plugin
Apache Ranger架构
这些插件从中央服务器拉取策略并将它们本地存储在文件中。 当用户请求通过组件时,这些插件拦截请求并根据安全策略进行评估。插件还从用户请求收集数据,并遵循单独的线程将此数据发送回审核服务器。
Ranger 的策略是本地策略,有没有问题,如果有问题,则将相应的权限返回认证服务器。
这些插件从中央服务器拉取策略并将它们本地存储在文件中。 当用户请求通过组件时,这些插件拦截请求并根据安全策略进行评估。插件还从用户请求收集数据,并遵循单独的线程将此数据发送回审核服务器。
为了提供一致的安全控制和管理,hadoop管理员需要一个集中用户界面,可用于所有hadoop堆栈组件的致性定,控制和管理软件策略。
housework 集中安全管理体系 | |||
认证/周边安全 kerberos 周边与安全apache knox
| 授权 使用apache ranger的细粒度访问控制 | 审计 集中的审计报告 | 数据保护 线程加密在hadoop hdfs加密w / ranger kms |
Ranger集中安全管理
Apache Ranger管理控制台为Hadoop安全性的其他四大支柱提供了一个中心管理点。
使用强认证建立用户身份是Hadoop中安全访问的基础。 用户需要可靠地识别自己,然后将该身份传播到整个Hadoop集群以访问集群资源。 Hortonworks使用Kerberos进行身份验证。 Kerberos是用于对Hadoop集群中的用户和资源进行身份验证的行业标准。 HDP还包括Ambari,它简化了Kerberos设置,配置和维护。
Apache Knox Gateway用于帮助确保Hortonworks客户的边界安全。使用Knox,企业可以自信地将Hadoop REST API扩展到没有Kerberos复杂性的新用户,同时还可以保持符合企业安全策略。 Knox为具有不同程度的授权,身份验证,SSL和SSO功能的Hadoop REST API提供中央网关,以便为Hadoop启用单个访问点。
single ,simple point of access for cluster | kerberos encapsulation single hadoop access point rest api hierarchy consolidated api calls multi-cluster support |
中央控制确保一个或多个集群的一致性 | 消除了ssh边缘节点 中央api管理 中央审计控制 服务级别授权 |
与现有系统集成以简化身份维护 | sso集成siteminder和oam ldap&ad集成 |
|
|
|
|
|
|