2024 年十大数据和人工智能趋势

数据和人工智能领域发展迅速。如果你不能经常停下来多瞅瞅这个,你可能会错过它。

2023年是通用人工智能(GenAI)的一年。而2024年似乎也将成为…又一个通用人工智能的一年。

但在2023年,团队们争先恐后地提及通用人工智能,到了2024年,团队们将优先考虑他们的人工智能模型解决真正的商业问题。随着重新聚焦,新的优先事项也随之出现。

当涉及到数据的未来时,潮涨船高。通用人工智能在2024年将继续上升,提高数据行业的标准——以及优先事项——与它一同上升。

以下是我对数据和人工智能团队下一步发展和你的团队如何保持一步之遥的前10个预测。

大型语言模型(LLMs)将改变技术栈 这一点是显而易见的。
毫不夸张地说,在过去的12个月里,大型语言模型已经彻底改变了技术的面貌。从有合法用例的公司到寻找问题的临时团队,每个人都在尝试以这样或那样的方式使用生成性人工智能(GenAI)。

大型语言模型预计将在2024年及以后继续这种转变——从推动对数据的需求增加到需要新的架构,如向量数据库(即“AI栈”),再到改变我们为最终用户操纵和使用数据的方式。

自动化数据分析和激活将成为每个产品和数据栈每个层面上预期的工具。问题是:我们如何确保这些新产品在2024年提供真正的价值,而不仅仅是为了公关信用而增加一点新闪光点?

数据团队将看起来像软件团队 最成熟的数据团队将他们的数据资产视为真正的数据产品——包括产品需求、文档、冲刺,甚至是最终用户的服务等级协议(SLA)。
因此,随着组织开始将越来越多的价值映射到他们定义的数据产品上,越来越多的数据团队将开始看起来——并且被管理——像他们所是的关键产品团队。

软件团队将成为数据实践者 当工程师试图构建数据产品或通用人工智能而不考虑数据时,结果通常不好。只需问问联合健康保险。
随着人工智能继续吞噬世界,工程和数据将成为同一件事。没有重大软件开发会进入市场而不考虑人工智能——也没有重大人工智能会进入市场而不使用一定程度的真实企业数据。

这意味着,随着工程师寻求提升新的人工智能产品,他们需要对数据——以及如何使用它——发展出一种眼光,以构建增加新价值和持续价值的模型。

RAG将成为所有RAG的焦点 在一系列备受瞩目的通用人工智能失败之后,需要清洁、可靠和策划的上下文数据来增强人工智能产品的需求变得越来越明显。
随着人工智能领域的不断发展和通用大型语言模型训练中的盲点变得痛苦明显,拥有专有数据的团队将转向RAG(检索增强生成)和大规模微调,以增强他们的企业人工智能产品,为他们的利益相关者提供可证明的价值护城河。

RAG在场景中仍然是相对较新的(它最初由Meta AI在2020年推出),组织尚未围绕RAG开发经验或最佳实践——但它们即将到来。

团队将使企业级人工智能产品运营化 持续流行的数据工程趋势——数据产品。不要搞错,人工智能是一种数据产品。
如果2023年是人工智能的一年,2024年将是使人工智能产品运营化的一年。无论是出于需要还是强迫,各行各业的数据团队将拥抱企业级人工智能产品。问题是——它们真的准备好了吗?

希望不再有创建随机聊天功能只是为了说你们正在整合人工智能,当董事会问起时。到2024年,团队可能会变得更加复杂,了解他们如何开发利用更好的培训实践来创造价值的人工智能产品,并确定要解决的问题,而不是制造技术来创造新问题。

数据可观测性将支持人工智能和向量数据库 在亚马逊网络服务(AWS)2023年首席数据官洞察调查中,受访者被问及他们组织实现生成性人工智能潜力的最大挑战是什么。
最常见的答案?数据质量。

生成性人工智能本质上是一种数据产品。像任何数据产品一样,没有可靠的数据它就无法运作。但在大型语言模型的规模上,手动监控无法提供所需的全面和高效的质量覆盖,以使任何人工智能可靠。

要真正成功,数据团队需要一个针对人工智能栈量身定制的、活生生的数据可观测性策略,使他们能够在不断增长和动态的环境中一致地检测、解决和预防数据停机时间。
而且,这些解决方案需要优先考虑解决、流水线效率以及支持人工智能的流式/向量基础设施,以便在2024年的现代人工智能可靠性之战中成为一个竞争者。

大数据将变小 三十年前,个人电脑是一种新奇事物。现在,随着现代Macbooks拥有与Snowflake在2012年推出其MVP仓库时相同的计算能力,硬件正在模糊商业和企业解决方案之间的界线。
由于大多数工作负载都很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。

特别是对于需要快速扩展的团队,这些解决方案可以快速启动,并且可以随着商业云提供商的提供上升到企业级功能。

正确调整规模将优先 今天的数据显示领导者面临一个不可能的任务。使用更多的数据,创造更大的影响,利用更多的人工智能——但降低那些云成本。
正如《哈佛商业评论》所言,首席数据和人工智能官被设置为失败。截至2023年第一季度,IDC报告称云基础设施支出上升到215亿美元。根据麦肯锡的数据,许多公司的云支出每年增长高达30%。

像元数据监控这样的低影响方法和允许团队查看和正确调整使用情况的工具将在2024年变得非常宝贵。

Apache Iceberg是由Netflix的数据工程团队开发的开源数据湖表格式,旨在提供一种更快、更容易处理大规模数据集的方法。它被设计为即使是PB级的大型分析表,也可以使用SQL轻松查询。

现代数据仓库和数据湖将提供计算和存储,而Iceberg专注于提供成本效益高、结构化的存储,可以被组织内可能同时使用的许多不同引擎访问,如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。

最近,Databricks宣布Delta表元数据也将与Iceberg格式兼容,Snowflake也在积极整合Iceberg。随着数据湖成为许多组织的事实上的解决方案,Apache Iceberg——以及Iceberg的替代品——可能会继续增长受欢迎。

对某人来说,回到办公室 RTO——每个人都不喜欢的缩写。或者可能是他们最喜欢的!老实说,我现在跟不上了。虽然团队在这个问题上似乎意见分歧,但越来越多的团队每周至少被召回他们的小隔间灵活工作环境几天。

根据Resume Builder 2023年9月的报告,90%的公司计划到2024年底实施回办公室政策——这距离2020年那个命运之春已经将近四年了。

事实上,包括亚马逊的Andy Jassy、OpenAI的Sam Altman和谷歌的Sundar Pichai在内的几位有影响力的CEO在过去几个月已经实施了回办公室政策。而且,至少有一些在办公室工作(至少是兼职)相对于完全在家工作的好处。

发现自己在永远在家工作的阵营?
看来答案——就像在数据中总是一样——是提供更多的价值。
尽管最近的经济逆风和其对就业市场的影响,数据和人工智能团队需求量很大。雇主通常会尽一切努力获得他们——并留住他们。

虽然一些公司要求所有员工无论角色如何都回到办公室,但像Salesforce这样的其他公司则要求非远程工程师少得多,每个季度总共10天。