你知道吗?
你每低头多玩几分钟手机
世界上就会多一个颈椎不适者
以及一堆非结构化数据
我们正大踏步迈入非结构化数据时代
聊微信、打电话、发邮件、手机拍照
你的每一次指尖轻舞
都有源源不断的非结构化数据为伴
IDC 预测,2018年到2025年间,全球产生的数据量将会从33 ZB增长到175 ZB,其中超过80%为非结构化数据,并且每年将以指数级趋势递增。
数字化汪洋之上,海雾弥漫,遮天蔽日,组织如何冲破重重阻碍,实现对非结构化数据的存储、挖掘和洞察呢?
你问我答
欢迎来到⌈你问我答⌋第二期。今天我们将对非结构化数据的价值挖掘问题进行探讨,希望为在非结构化数据存储方面有困惑的读者提供思路。
欢迎大家多多关注,多多提问
非结构化数据怎么存?
结构化数据如日期、电话号、账户余额、产品名称等,严格遵循数据格式与长度规范、易于由二维表结构进行逻辑表达和实现,与之相反,非结构化数据结构不规则或不完整、缺乏预定义数据模型、格式多种多样,比如文档、图片、音频、视频、社交媒体记录等,往往呈现出杂乱无章的特点。
针对结构化数据,市面上有大量成熟的分析工具可用来实现数据洞察,但非结构化数据难以标准化和理解,处理难度较大,对其价值挖掘尚处于发展阶段。
关于非结构化数据存储,目前业内主要有擅长存储海量文件的NAS文件存储和对象存储两种选项。
文件存储
以文件和文件夹为操作对象,基于文件夹/文件的路径访问数据。这是一种比较接地气的形式,我们日常在电脑里先打开父文件夹,再层层点开父文件夹嵌套的子文件夹,最后找到子文件夹里的某个文件,这一套流程就是文件存储的体验。
作为数据存储老手,文件存储已经被广泛应用十几年,它能兼顾多个应用和多个用户访问,突出优势是方便文件共享。
对象存储
是近些年的存储网红,它以对象(object,不是搞对象的对象)为操作对象。不同于文件存储的树状嵌套分层结构,对象存储架构更为扁平化,它将数据及其元数据打包放到一个超大的资源池,用户可根据唯一的元数据快速定位文件。
有这么一个比喻,同样到商场存包,文件存储这个商场里,你要记住自己的物品放在哪间储存室的哪排柜子的第几号,而在对象存储商场,存包员会给你一张凭条,你只需将凭条交给存包员即可取包,无需记住数据以什么形式存在了哪里。
对象存储的灵活性和扁平架构决定了它可以通过扩展来存储海量数据,其容量通常可达到EB级以上,从理论上讲对象存储的容量和对象数量可以无限扩充。
文件存储还是对象存储?
既然文件存储和对象存储的都适用于海量非结构化数据存储,那么用户什么时候选择文件存储,什么时候选择对象存储呢?
有两个主要指标,一看数据规模,二看应用场景。
01、数据规模
文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。
但是文件存储中,一旦文件数达到数千万级别,目录树越建越深,就会造成性能瓶颈,不仅查询效率严重下降,而且超多超大文件管理困难,严重影响业务效率。
对于几乎无形中可以添加更多空间、弹性扩容的对象存储来说,爆炸性膨胀的非结构化数据存储简直是小菜一碟。
因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。若组织需要处理大量数据,那么选择对象存储是更明智的决定。
02、应用场景
对象存储之所以成为近些年的存储顶流,除了其容量无限制、强扩展的特性,还在于其天然拥抱云和互联网的特质。
在对象存储中,用户若想修改文件,只能先下载、修改,再将修改后的文件上传,这一特性决定了它非常适合读取多写入少的场景——比如网站视频播放、网盘应用、机器学习的数据训练、物联网数据传输、云原生等,对于这些现代化应用,对象存储大有可为。
此外,对象存储也被称为云存储,如今已成为云服务公司的一项基础业务,全球各知名厂商纷纷推出基于对象存储的云存储服务,凭借其事实上的语言——AWS S3 API,对象存储可以在内部部署/私有云环境与公有云存储之间进行无缝访问和移动。
因此,对于人工智能、物联网、云原生等新兴应用,对象存储将是不错的选择
你要的,我们都有!
针对汹涌而来的非结构化数据,戴尔科技洞悉组织从中挖掘价值的需求,专门为非结构化数据设计了两款存储系统——NAS文件存储PowerScale和对象存储ECS。
用户可通过PowerScale进行基于文件的非结构化数据管理,ECS则负责基于对象和云原生的非结构化数据。
作为一款企业级对象存储平台,ECS可支持组织以类似于公有云的规模灵活地捕获、存储、保护和管理非结构化数据,所有这一切都在数据中心范围内实现。
ECS具有非凡的可扩展性、性能、弹性和经济性,可满足现代企业的需求。用户可利用高性能、兼容S3的ECS支持现代工作负载,并在较低的总拥有成本基础上,使用ECS开发云原生应用程序、构建EB规模归档、推动战略分析计划和满足SLA。
另外需要指出的是,戴尔PowerScale和ECS已通过著名大数据技术服务商Cloudera的CDP认证,由此PowerScale和ECS用户可以获得更轻松、更快速、更安全的自助式数据分析体验,而这将进一步打破企业从数据存储到数据洞察之间的重重阻碍。
大数据时代,体量占有压倒性优势的非结构化数据将引领未来。目前组织对非结构化数据的利用和控制尚且不足,非结构化数据就像一座隐藏在海面下的庞大冰山,等待合适的工具开采。戴尔科技将为您提供洞察非结构化数据的双桨,助您在数字化海洋劈波斩浪,一往无前。
欢迎提问
如果您有数据中心相关的疑问,欢迎在下方留言区告诉我们。问题一经采用,我们将奖励100元电话卡,同时还可进群与戴尔专家、业界同行一起交流学习!
Ps。 具有普遍性、能使广大读者受益的问题,更可能被我们采纳!