一、企业清晰的数据战略已经刻不容缓 ,
上个月欧盟委员会于2020年2月19日发布欧盟数据战略,积极推进数字化转型工作。打造欧盟单一数据市场!目的是强化技术主权,提升企业竞争力。
2020年3月,中共中央政治局常务委员会召开会议提出 。加快5G网络、数据中心等新型基础设施建设进度 !与传统基建相比 ,新型基础设施建设更能体现数字经济特征。能够更好推动中国经济转型升级 !
如图1根据国家统计局数据,从2015年到2019年 。全国居民人均可支配收入持续增加!2019年全年全国居民人均可支配收入30733元 ,扣除价格因素 。实际增长5.8%!
图1 2015年到2019年全国居民人均可支配收入持续增长,
消费者收入一方面在增加 ,一方面更追求个性化 。在政策的大背景下 !随着移动互联网的普及 ,5G的加快落地。对于企业做好数字化转型!满足消费者千人千面的需求是必然的选择 ,
此外还有一个趋势就是越来越多的企业利用数字化技术 ,开展线上业务。比如在疫情期间 !有房地产企业开始在线上卖房,
数据是资产已经是共识,我们的衣食住行不断地产生数据 。依托这些数据!使不少互联网企业发展壮大 ,同样的在企业的日常运营中也在不断地产生数据。如果能利用好这些数据 !将进一步的提升企业竞争力,
在企业普遍开展数字化转型的大潮之下,每家企业应明确自己的数据战略 。为数字化转型打好基础 !
数据战略包括数据采集、存储、分析、消费,国际数据公司(IDC)和数据存储公司希捷开展的一项研究发现 。2025年全世界产生的新数据将从2018年的33ZB增至175ZB!中国每年将以超过全球平均值3%的速度产生并复制数据 ,据该研究报告。2018年中国约产生7.6ZB(1ZB约相当于1万亿GB)的数据 !到2025年该数字将增至48.6ZB,与此同时美国2018年约产生6.9ZB数据。并将在2025年增至30.6ZB !
二、企业用好数据 ,面临四个挑战。
企业如何用好数据,面临以下四个挑战。
1. 企业内部存在数据竖井 ,数据采集困难。
企业内部的数据,往往存在数据竖井 。格式不一致的问题 !企业内部的数据 ,通常是按部门 。按数据线保存!不同历史时期,采用的数据库不一样 。导致数据格式也不一致 !要将数据统一采集存储,需要打破部门壁垒 。兼容各种数据格式 !
2. 数据增速越来越大 ,数据存储面临挑战。
如前文所述随着新技术的采用,随着信息化的深入。产生的数据越来越多 !数据量飞速增加 ,大量的数据如何存储成为一门技术活:如何能存储海量的数据 。让数据根据冷热分层 !让数据存储性价比更高成为挑战 ,
3. 海量的数据分析需要专业的能力 ,
数据分析越来越复杂,甚至成为一个生态系统。对于一个企业来说 !要做数据分析,往往需要一个团队 。需要购买商业产品!需要服务商的支持,如图2从mattturk.com网站总结的数据和AI生态蓝图可以看出数据分析的复杂性。
(来源mattturk.com网站),
我国于2017年6月1日正式实施《中华人民共和国网络安全法》,在数据安全也有诸多规定。明确规定了网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意!不得向他人提供个人信息,
欧盟于2018年5月25日正式实施了《通用数据保护条例》 (General Data Protection Regulation,简称GDPR) 。GDPR是一项保护欧盟公民个人隐私和数据的法律!其适用范围不仅包括欧盟成员国境内企业的个人数据、也包括欧盟境外企业处理欧盟公民的个人数据,
2019年5月28日国家互联网信息办公室发布《数据安全管理办法》(征求意见稿),征求意见稿中包括数据收集、数据处理使用和数据安全监督管理等内容。
这四个方面的挑战 ,中小企业面临的挑战更大 。大型企业面临的是效率问题!中小企业则面临的是数据战略如何落地的问题,而AWS推出的数据湖服务。可以很好的解决这四个挑战 !
三、AWS数据湖,通过组合拳解决数据难题 。
如图3AWS的数据湖实际上由一系列产品和服务构成: ,
Amazon RDS:云托管的关系型数据库,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六种常用的关系型数据库 。
Amazon Redshift:数据仓库 ,性能强大、使用简单。全托管的数据仓库服务 !支持大规模并行处理,支持从GB到TB规模数据的扩展 。
!Amazon EMR:大数据处理,在AWS上运行Spark。Hadoop !HivePresto ,Hbase等大数据分析。高度可扩展的分析和机器学习服务!
Amazon Kinesis:实时数据,实时收集、处理并分析视频和流数据。
!Amazon Athena:数据交互查询,使用标准SQL对Amazon S3上的数据做交互查询。无需基础设施及配置 !无需另外加载数据 ,
AWS Glue:ETL 和数据目录服务 ,无服务器架构的数据目录和ETL服务。AWS Glue 使用能识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录!包括 CSV、Apache Parquet、JSON 等 ,
AWS Lake Formation:可以自动化构建数据湖,
通过以上产品和服务的组合 ,AWS的数据湖有以下特点: 。
AWS Lake Formation 可以自动化构建数据湖 ,可以在数天内构建数据湖。而传统方式需要一个经验丰富的团队!花费数个月的时间 ,
2. 兼容多种数据格式,支持分级存储。
AWS数据湖支持关系型和非关系型数据库 ,Amazon S3 提供五个存储类别和自动数据生命周期管理 。Amazon Redshift 的速度比其他云数据仓库要快3倍 !
3. 支持不同数据库连接和数据交互查询及
企业五年后卓越或者死亡 ,数据战略是关键。_公司注册代办_随缘企登
!通过AWS Glue和Amazon Athena服务,可以实现不同数据库连接及数据湖数据交互查询。
AWS Glue最主要有两个功能 ,一个是ETL 。ETL是Extract、Transform和Load!即数据的抽取、转换和加载,从数据库提取到数据仓库使用的都是ETL。另外一个功能是数据目录服务的功能!数据都存在数据湖里面,要对数据打标签 。做分类工作AWS Glue可以像爬虫一样对数据湖里的海量数据自动爬取!生成数据目录的功能,
Amazon Athena支持使用SQL直接对S3数据交互式查询 ,使快速存起来的海量的数据可以像传统的使用SQL语言一样。使用标准的数据库查询的语言 !方便了技术人员的使用,
如图4AWS支持多种数据分析方式,数据通过各种数据库采集。进入数据湖然后进行分析和展现!
数据分析Amazon EMR是重点,Amazon EMR 提供在云中运行 Apache Spark 和 Apache HIVE 工作负载 。EMR 与 AWS 的其余部分进行深度集成便于节省成本的功能 !如 EC2 Spot 实例,从而将成本缩减高达 90% 。
另外AWS数据分析支持 SQL、R、Scala、Jupyter 和 Python语言 ,所有的服务均支持使用开放 API 以开放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用专有(适用于数据仓库的 Redshift)和开放引擎(例如 Spark、Hive)访问单一对象存储 (S3) 中存储的数据 。
更进一步AWS数据湖可以和机器学习和人工智能服务Amazon SageMaker结合 ,把数据用来做机器学习、人工智能的数据分析。做更多的自动的预测性的分析 !
AWS 提供了一套超越标准安全功能的工具,例如对安全策略积极监控和统一管理的加密和访问控制 。例如Amazon Macie 可帮助监控数据湖 !以确保不会意外地暴露凭据或个人身份信息 (PII),Amazon Inspector 可帮助实施最佳实践和识别可能被利用的配置问题。利用 AWS Lake Formation!可以在所有分析服务中对数据湖中的数据进行一致性的访问控制,
AWS数据湖是成熟的解决方案 ,如图5所示可以提供多种功能 。实现不同的业务价值!AWS数据湖已经有许多用户在使用 ,像娱乐业的二十一世纪福克斯电影公司 。还有包括一些金融的案例 !比如FINRA ,是一个美国的金融监管机构。每天有超过1500亿的事件、20PB的数量!它把所有金融的交易的信息都整合在一起,可以处理所有的内部交易。还有纳斯达克交易所!使用数据湖处理每天500亿条的付款 ,使用数据湖把上市时间缩短了1/3 。
四、总结:AWS数据湖服务是数据战略落地的强支点,
疫情期间的健康码经过精准的数据分析 ,极大的方便了大家的出行 。也让大家进一步认识了数据分析的便利性 !当前从政府到企业,都普遍认识到了数据的重要性 。数据要发挥作用!必须经过多维度的分析 ,今后五年企业必须拥有清晰正确的数据战略并高效的落地。数据战略是通往卓越的必经之路 !企业要么因为数据战略的高效落地而卓越,要么死亡
AWS的数据湖服务,能够帮助企业解决数据的采集、存储、分析、消费等全周期的问题。为企业搭建了良好的数据平台 !是企业数据战略落地的强支点 ,能够有力推动企业数字化转型 。是企业抢占先机 !赢得竞争优势的利器,