科技日报记者 张佳星
“10年前,亚马逊云科技上线数据存储服务,当时容量超过1PB(百万GB)的客户还不到100家。”12月18日,亚马逊云科技re:Invent 2024中国行举行,亚马逊云科技大中华区产品部总经理陈晓建在会上介绍,十年过去了,已经有超过数千家的客户拥有了超过PB的数据,甚至有些客户的数据量已超过了一个EB(1024PB)。
数据的爆炸性增长带来一系列新的数据处理挑战。如何有效检索、获取数据价值,如何高效调用目标数据挑战着数据管理者的管理能力。尤其是当生成式人工智能对于数据应用的需求正在指数倍增加,对数据的高效管理将成为数据挖掘、人工智能计算的有力支撑。
“数据分析和AI应用,需要一种高效的存储模式以进行大数据的分析和处理。”陈晓建表示,为此,在管理数据时需要有效的存储压缩工具和编码技术,以解决数据随时可以高效读取与高度压缩存放之间的“两难”问题。
据介绍,存储服务通过增加相关功能增强数据处理能力,推出专为特别数据类型设计的存储类型,将查询性能提升3倍,事务处理能力提升10倍。陈晓建表示,通过这种开源的高性能模式,亚马逊云科技让用户在数据库就能“指挥”数据执行系统的操作,比如说让不同的用户在各种分析引擎上,都能够安全地处理一份文件。
与此同时,随着机器学习和人工智能分析能力的增强,越来越多的客户不再孤立地使用数据,而是通过不同的数据分析工具,打通数据孤岛,随时调用想要的数据,形成更综合的分析能力。
“例如,每个人的手机上都有成千上万张照片,那么我们怎么能够快速找到一张想要的照片呢?”陈晓建解释,事实上每个照片都有自己的元数据,只需要在存储照片时将照片特有的元数据提取出来,就可以服务于后续的计算。为此,Amazon S3新增Metadata元数据功能,实现“元数据”的自动获取和实时更新,帮助用户在多维数据中,形成统一的检索平台,用于对不同格式、不同模态数据的统一处理。
“元数据的管理,首先需要建立起一个存储对象的清单,再建立起一个数据导入的管道,构建一个专门的数据库,通过设计特别的程序,实现原始数据与元数据之间的数据打通。”
陈晓建解释,亚马逊云科技通过创新“元数据”服务,帮助客户自动创建可查询元数据,大幅提升了数据利用效率。
存储之外,客户往往使用多种数据分析工具来获取洞察。为此,亚马逊云科技在其新一代的机器学习服务中将各种数据分析工具统一到一个集成平台,为客户提供单一的数据和AI开发环境。
罗氏是一家制药和诊断领域的企业,该公司将使用亚马逊云科技新一代机器学习服务中的数据湖仓功能来统一数据仓库和数据湖等不同来源的数据,消除数据孤岛,增强团队之间的协作,并允许用户无缝利用数据,无需昂贵的数据移动或重复的安全访问控制。借助新的统一数据平台,罗氏预计数据处理时间将减少40%,这让他们减少数据管理工作,而将精力更多用于推动业务发展。
据介绍,从人工智能前沿探索到金融风险把控、从数字娱乐体验优化到制药诊断科学推进,不断迭代的云服务正助力各行各业加速创新。大会不仅发布了数据存储方面的创新,还包括云的核心服务层面的持续创新,以及从芯片到模型的新突破。陈晓建认为,全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。