图片来自:蒙特卡罗
根据行业专家的观点,2024年将会是生成式人工智能的一个辉煌之年。实际应用案例开始浮现,技术则在降低进入门槛的障碍,而通用人工智能显然快要到来了。
那么……那些事儿真的发生了吗?
好吧,差不多是这样。到了2024年末的这个时候,有些预测新鲜出炉了,而其余的还需要更多的时间来成熟(这里指的是通用人工智能)。
这里是知名未来学家和投资者汤玛兹·通古兹对2024年底数据和人工智能的看法,以及我个人的一些预测。
2025年数据技术趋势即将到来。
就在仅仅三年的人工智能反乌托邦之后,我们已经开始看到一些企业在我们预期的领域创造了价值,但并非所有领域。根据汤玛斯的说法,目前的人工智能可以归结为三大类。
1. 预测如下:能够完成句子的等任务,修复代码错误等的AI助手
2. 搜索工具:用于从数据语料库中回答问题的工具
3. 一个可以完成复杂任务的多步骤推理过程
虽然AI助手和搜索在企业组织中已经取得了一些进展(特别是前者),但推理论证模型似乎仍然落后。根据Tomasz的说法,这是因为有一个明显的原因。
模型的准确度。
正如 Tomasz 解释的,目前的模型除非他们之前多次见过特定模式,否则很难把任务拆分成步骤。而对于这些模型可能需要完成的大部分任务来说,这其实并不常见。
“今天……如果一个大型模型被要求制作一个FP&A图表,它也能完成。但如果有一些有意义的差异——例如,我们从软件计费转为基于使用量的计费——它可能就无法应对了。”
所以,目前看来,AI副驾系统和部分准确的搜索信息占上风。
新工具好不好,还要看支持它的过程怎么样。
随着“现代数据栈”不断演变,数据团队有时发现自己陷入了一种永无止境的试用状态。他们过于专注于平台的“是什么”而忽略了相对更重要的“如何”。未能给予(或许更重要的)“如何”足够重视。
但是随着企业环境越来越接近可以生产使用的AI,弄清楚如何将这些新工具投入实际操作正变得越来越紧迫。
让我们来考虑一下数据质量的例子。随着数据在2024年成为驱动AI的核心,数据质量也开始受到重视。面对即将成为现实的生产级AI,企业数据领导者没有时间去挑选数据质量的解决方案——在某些地方做些dbt测试,在其他地方使用一些点解决方案。他们需要立即产生价值,需要今天就能快速上手并有效部署的可靠解决方案。
随着企业数据领导者面对生产就绪AI的挑战,他们没有时间去尝试不同的数据质量工具——在这里进行几项dbt测试,在那里使用几个点解决方案。他们已经肩负起交付业务价值的任务,需要今天就能有效上手和实施的可靠解决方案。
实际上,你可能拥有市场上最先进的数据质量平台——最顶尖的自动化技术、最佳的助手工具、最酷炫的集成——但如果不能让你的组织快速运转起来,实际上你只有一项预算支出,桌面上多了一个新标签页而已。
在接下来的12个月里,我预计数据团队将更倾向于使用经过验证的端到端解决方案,而不是临时拼凑的工具包,以优先解决数据质量的管理、事故管理和长期领域支持等更关键的挑战。
能够满足这些优先事项的解决方案,才是赢得人工智能竞赛的关键。
像任何数据产品一样,GenAI的价值也体现在两种形式之一:节省成本或增加收入。
在收入方面,你可能会有一些像AI SDRS系统、增强型机器或推荐系统这样的工具。根据Tomasz的说法,这些工具可以生成大量的销售机会……但这些机会不会是健康的销售机会。因此,如果不能带来收入的话,AI就需要开始削减成本——在这方面,这种新兴技术确实找到了立足之地。
“不是很多公司因此而停止运营。主要是削减成本。Klarna 裁减了三分之二的员工。微软和ServiceNow的工程生产力提高了50%至75%。”
据汤玛兹说,如果满足以下三个条件之一,AI应用案例就可以降低成本:
汤马兹提到的一个有效增加新收入的例子是EvenUp,一家自动化需求函的交易型法律公司。像EvenUp这样的支持模板化但高度专业化的服务的组织,可能在目前的人工智能中获得不成比例的影响。
与去年争相采纳“AI策略”相比,今天的领导者似乎集体后退了一步,远离了这项科技。
“去年,人们尝试各种软件仅仅是为了试用一下。他们在讨论自己的AI策略。但现在这一初潮中很多人已经流失了。”
一些组织并没有从早期实验中获得预期的价值,而另一些组织则在底层技术的快速演变中苦苦挣扎。根据汤玛兹的说法,这是投资AI公司所面临的最大挑战之一。并不是因为这项技术在理论上没有价值,而是组织尚未找到如何在实际操作中有效利用这项技术的方法。
托马斯认为,下一次采用浪潮将会有所不同,因为领导者会更清楚他们需要什么以及在哪里能找到所需资源。
就像大型演出前的彩排一样,团队知道自己在找什么,他们已经与法务和采购部门合作解决了部分常见问题,特别是数据丢失和防护,而且已经准备好在合适的时机行动。
明天的挑战是什么?“我怎样才能更快地发现并推销出价值?”
开源与专有软件之争就像一个非常古老的故事……好吧,非常古老。但在提到人工智能时,这个问题变得复杂许多。
在企业层面,问题不仅在于控制或互操作性——尽管这些因素确实可能起到一定作用——更重要的是运营成本。
尽管托马兹认为最大的B2C公司将使用即用型模型,但他预计B2B公司会更倾向于使用自己的专有和开源模型。
“在B2B中,你会看到更多的小模型,而且开源项目更多。这是因为运行这些小型开源项目要便宜得多。”
但不仅仅是成本问题。就像谷歌一样,大型模型被设计来适用于多种用途。用户可以向大型模型询问几乎所有问题,因此这些模型需要基于足够大的数据集进行训练,以提供相关回答。比如水球、中国历史和法式吐司。
可惜的是,模型训练的题材越多,越容易混淆多个概念——时间越长,输出错误的可能性也就越大。
“你可以用拥有80亿参数的llama 2,用1万个支持工单对其微调,这样它的表现会好很多。”汤马兹说。
此外,ChatGPT和其他托管解决方案常因被指控其创作者没有合法权利使用训练这些模型的数据而在法庭上受到挑战。
而且在很多情况下,这恐怕没错。
这除了成本和性能之外,还可能对专用模型的长期使用产生影响——尤其是受严格监管的行业——但这种影响的程度还无法确定。
当然,如果萨姆·阿尔特曼有发言权,自有产权的模型也不会坐视不理。如果推特教给了我们什么教训,那就是萨姆·阿尔特曼确实有很多话要说的。
专有模型已经开始大幅降价以刺激需求增长。比如ChatGPT这样的模型已经将价格下调了大约50%,并且预计在未来6个月内还将再下调50%。对于希望在AI竞赛中竞争的B2C公司来说,这种成本削减可能会是一个急需的利好消息。
当谈到扩大管道生产流程时,数据团队通常会遇到两大难题:一是缺乏技术经验的分析师,另一是时间不够的数据工程师们。
听起来这像是个AI能搞定的问题。
当我们展望数据团队可能如何演变时,我认为有两大趋势可能在2025年推动工程和分析职责的合并:
论点很简单——随着需求的增长,管道自动化将自然而然地发展以满足需求。随着管道自动化发展以满足需求,创建和管理这些管道的门槛会变得越来越低。技能差距会缩小,同时增加新价值的能力也会增强。
转向自助式的由AI驱动的流程管理意味着每个人工作中最痛苦的部分会被自动化——而他们创造新价值的能力也会增强。这听起来像是一个美好的未来。
你大概见过蛇吃自己尾巴的图像。仔细一瞧,它与现在的AI非常相似。
当前互联网上有大约21至25万亿词汇或单词。目前市面上的AI模型已经使用了所有这些数据。为了继续推动技术进步,数据需要不断更新,需要更大的数据集来训练。数据量越大,模型的上下文就越丰富,输出也就越准确。
那么,当做人工智能研究的人数据不够用了,他们又会怎么办?
他们自己动手做。
随着训练数据变得越来越稀缺,像 OpenAI 这样的公司相信合成数据将变得越来越重要。在过去的 24 个月中,整个行业已经发展起来以服务这一愿景——其中就包括像 Tonic 这样的公司,它们生成合成结构化数据,以及像 Gretel 这样的公司,它们为金融等受监管行业(如医疗)创建合规数据。
但是合成数据是否能成为长期解决方案?恐怕不行。
合成数据的工作原理是利用模型生成可能在现实世界中发现的数据集,在数据更为丰富的假想现实中,然后用新数据来训练自己的模型。在小范围内这样做确实很有道理。你知道“物极必反”这句话吧,这里的意思是“好东西太多也不一定好”。
你可以把它想象成一种类似上下文营养不良的情况。就像食物一样,如果新鲜有机的数据是用于模型训练的最营养的数据,那么从现有数据集中提取的数据自然没有原始数据那么营养成分丰富。
一点人工调味品还是可以接受的——但如果持续使用没有新引入的本地小批量数据,该模型最终还是会失败(至少也会有指甲床看起来不会那么好看了)。
这不是会不会的问题,而是何时的问题。
根据汤玛兹的说法,我们现在离模型崩溃点还很远。但是随着人工智能研究不断推动模型逼近功能极限,可以看到人工智能达到功能瓶颈的世界——可能比人类预期的还要早。
在生产中利用非结构化数据早已不是什么新概念——然而在如今的人工智能时代,非结构化数据已经拥有了全新的角色。
根据IDC的一份报告,目前只有大约一半的组织的未结构化数据正在被处理或分析。更多详情请参阅:[链接]
这一切很快就会改变。
当谈到生成式AI时,企业的成功在很大程度上取决于用来训练、微调和增强AI的丰富的非结构化数据。随着越来越多的组织希望将AI应用于企业场景,对非结构化数据及其不断增长的“非结构化数据栈”的兴趣也将持续增加。
有些团队甚至在探索如何利用额外的大型语言模型为非结构化数据添加结构,使其更易于使用,例如参考这篇文章(https://www.montecarlodata.com/blog-generative-ai-use-case-assurance/),以进一步提升其在额外训练和分析用例中的价值。
对于希望证明数据平台对业务的价值并为优先项目争取更多预算的数据领导者来说,识别贵组织中未结构化的第一方数据及其潜在激活方式,是一个全新的机遇。
如果2024年是关于探索非结构化数据的潜力的话——那么2025年将更加注重实现这些数据的价值。那么问题来了……哪些工具会崭露头角?
如果你最近在风险投资圈子里混,你可能会经常听到一些术语:一个是“AI共驾”,这是一句花哨的说法,指一种用于完成单一任务(例如“修正我糟糕的代码”)的AI;另一个是“智能代理”,它可以收集信息并执行任务(比如“写一篇关于我糟糕的代码的文章并发布到我的WordPress博客上”)。
无疑,我们在2024年看到了许多关于AI助手的成功(比如GitHub、Snowflake,微软的AI助手等),但AI代理呢?
虽然“代理AI”在搞乱客服团队方面很活跃,但看来在短期内可能也就这样了。虽然这些早期的人工智能代理已经向前迈出了一大步,但这些流程的准确性仍然不高。
作为背景信息,75%-90%的准确率是AI的顶尖水平。大多数AI和高中生差不多的水平。但是,如果你有三个步骤,每个步骤的准确率是75%到90%,那么最终准确率大约在50%左右。
我们训练的大象画画比那还要准确。
远非组织的收入驱动,大多数目前性能的AI代理如果投入使用将会是有害的。根据Tomasz的说法,我们首先得解决这个问题。
能谈论它们很重要,因为到目前为止,还没有任何人能在实际应用中取得成功,只在演示中可行。尽管硅谷的人们非常喜欢谈论AI代理,这种谈论并没有带来实际的表现提升。
“在一次与一群人工智能头目的晚宴上,我询问有多少人对自己的输出质量感到满意,没有人举手。一致的高质量输出存在真正的质量挑战。”
每年,蒙特卡洛都会对真实的数据专业人士进行一项关于他们数据质量状况的调查。今年,我们将目光投向了人工智能的影响,结果非常明确。
数据质量风险正在变化,但数据质量管理却停滞不前。
“我们看到团队正在构建大规模的向量数据库或嵌入模型。大规模的SQLLite数据库。所有这些数以百万计的小数据库。它们开始在CDN层架构起来,以运行这些小模型。iPhone将会内置机器学习模型。我们将看到总的数据处理管道数量呈爆炸性增长,但数据量会相对较小。”
微调的方法将在组织内部导致数据管道数量的激增。但管道越多,数据质量控制就越困难。
您的管道数量和复杂性增加时,数据质量也会提升,但同时也会有更多的问题产生,问题发生的可能性就越大,及时发现这些问题的几率就越小。
+++
此处待补充``
考虑到专家建议,正确的翻译应当是“+++”或者直接使用“此处待补充”,但由于翻译中包含多余的反引号(``),并且源文本仅仅是一个占位符,因此最恰当的处理方式是保留“+++”以保持简洁性和一致性。所以最终翻译如下:
+++
或者:
此处待补充
你觉得怎么样?给巴尔发邮件到barr@montecarlodata.com。我随时准备听你的意见。