人工智能学习

如何为您的用例选择合适的LLM模型

本文主要是介绍如何为您的用例选择合适的LLM模型,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

当你开始任何客户项目时,最常被问到的问题之一是:“我应该使用哪个模型?”这个问题并没有一个简单的答案;这是一个过程。在这篇博客中,我们将解释这个过程,这样下次客户问你这个问题时,你可以把这份文档分享给他们。 😁

选择合适的模型,无论是 GPT4 Turbo、Gemini Pro、Gemini Flash GPT-4o 还是较小的选择如 GPT-4o-mini,都需要在准确性、延迟和成本之间进行平衡。

核心原则

模型选择的原则很简单:

  1. 首先优化准确率:在达到准确率目标之前,优先优化准确率。
  2. 其次优化成本和延迟:然后力求在成本最低、延迟最小的模型上保持准确率。

掌握大语言模型

你正在准备Gen AI的面试吗?请查看我们的LLM面试准备课程。

  • 100+ 个涵盖 14 个类别的问题及真实的 案例研究
  • 每个类别精心挑选的 100+ 项评估
  • 基于 FAANG 和 Fortune 500 公司的 真实世界面试问题,经过深入研究
  • 侧重于 视觉学习
  • 完成证书

50% 折扣码 — LLM50

课程链接:

大型语言模型(LLM)面试问题与答案课程深入探索人工智能的世界,这是一门全面的大型语言模型(LLM)面试问题与答案课程……www.masteringllm.com
要首先关注准确性
  1. 设定明确的准确率目标 : 定义对你用例来说“足够好”的准确率。例如:90%的客户服务中心电话在第一次互动中正确分类。

  2. 开发评估数据集 : 创建一个数据集来衡量模型的性能。例如:收集100个互动示例,包括用户请求、模型分类、正确分类和准确率。

  3. 使用最强大的模型 : 从最强大的模型开始,以实现你的准确率目标。记录响应以供将来使用。

  4. 优化准确率 : 使用检索增强生成,然后进行微调以保持一致性和行为。

  5. 收集未来使用的数据 : 收集提示和完成对的配对,用于评估、少量样本学习或微调。这种做法被称为提示烘焙,有助于生成高质量的示例供将来使用。

掌握大语言模型

优化成本和延迟

成本和延迟被视为次要因素,因为如果模型无法达到你的准确率目标,那么这些因素就无关紧要了。然而,一旦你有了一个适用于你的用例的模型,你可以采取两种方法之一:

  • 与较小的模型进行零样本或少样本对比:将模型替换为较小、更便宜的模型,并测试其是否在较低的成本和延迟下保持准确性。
  • 模型蒸馏:使用在准确性优化过程中收集的数据对较小的模型进行微调。
  • 成本和延迟通常相互关联;减少令牌和请求通常会导致更快的处理速度。

掌握大语言模型

这里主要考虑的战略有:
  • 减少请求 : 限制完成任务所需的请求数量。
  • 最小化令牌 : 减少输入令牌的数量,并优化模型输出的长度。
  • 选择较小的模型 : 使用在降低成本和延迟的同时保持准确性的模型。

掌握大语言模型

来自Open AI的实际示例

为了演示这些原则,他们开发了一个假新闻分类器,目标指标如下:

  • 准确性 : 达到90%的正确分类
  • 成本 : 每1,000篇文章花费少于5美元
  • 延迟 : 每篇文章的处理时间保持在2秒以内
实验

他们进行了三个实验来达到目标:

  1. 零样本学习:使用基本提示的 GPT-4o 对 1,000 条记录进行了处理,但未达到准确率目标。
  2. 少量样本学习:包含了 5 个少量样本示例,达到了准确率目标,但因更多的提示令牌超出了成本。
  3. 微调模型:使用 1,000 个标注示例对 GPT-4o-mini 进行了微调,达到了所有目标,具有相似的延迟和准确率,但成本显著降低。

结论
  1. 首先优化准确率,然后依次优化成本和延迟。
  2. 这个过程很重要——你通常不能直接跳到微调阶段,因为你不知道微调是否是你需要的优化工具,或者你没有足够的标注样本。
  3. 使用一个大的准确模型来达到你的准确率目标,并整理一个良好的训练集——然后使用微调来寻找更小、更高效的模型。

感谢Open AI团队。原始内容

这篇关于如何为您的用例选择合适的LLM模型的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!