了解 CVPR 2024 上视觉提示技术的 5 项突破性进展,真的不容错过。
视觉提示在行动:一个视觉系统,利用预测作为提示信息,来激活可提示的模型。
TL;DR 🔥 5 项计算机视觉中的视觉提示技术进展
1. 图像理解:简单的视觉标记可以帮助基础模型更好地理解图像的特定部分。
2. 多模态大型语言模型 (MLLMs):利用场景图使多模态大型语言模型能够更好地描述图像,而无需额外的训练数据。
3. 基础模型:通过战略视觉提示改进视觉基础模型(例如,SAM)。
4. 改进泛化能力:教会AI快速识别新物体,同时记住基础知识。
5. 视觉提示与主动学习相结合:AI可以聪明地学习新的视觉任务,使用更少的例子,并且不忘记它已掌握的知识。
在这篇文章里,我们将探讨视觉提示技术,这种技术能让视觉模型适应新任务。
除了定义这种方法的同时,并从系统角度来说明可提示模型如何以重塑该领域的方式正在重塑该领域,我们还强调了CVPR上提出的五项最重要的视觉提示技术的进展。
🔥 你绝对猜不到 CVPR 2024 揭晓了什么!看看这里最精彩的内容,
🔥 快来看看 Segment Anything Model 2 (SAM 2)
“提示是一种人人都能使用的模型编辑工具”
Phillip Isola,AI研究员,创造了“视觉提示”这一概念 [1]
1.1 视觉提示的由来
视觉提示技术最早可以追溯到2001年发表的作品《图像类比》[2]中的研究,在该研究中,研究人员开发了一种通过示例来处理图像的策略,在这种策略中,需要提示和查询来获取响应。
在生成式AI时代,视觉提示(提示或指令)有哪些新之处?
为了理解视觉领域中的提示(prompting),可能需要区分提示与微调(一种标准的调整手段)。
图1:视觉提示(Visual Prompting)与微调(Fine-tuning)的主要不同之处
图1说明了在用于计算机视觉的基础模型背景下,视觉提示与微调之间的关键区别。视觉提示使用视觉线索或示例来引导模型,而不调整其参数。这种方法不仅灵活,而且计算需求较低。相比之下,微调涉及在特定数据集上重新训练模型,通过调整参数来提升特定任务的性能,但需要更多的计算资源。
然而,这两种方法并不是非此即彼的选择。它们都代表了基础模型体系可能的适应方案的连续谱,如图所示。
图2. 可视化提示提供高度灵活性和快速适应
如上图所示,当需要灵活度和快速性时,采用视觉提示可能是应对这些应用(例如视觉搜索和检索、快速原型设计和实验)的最佳策略。
理解视觉提示法的优势的关键在于从系统角度来看这一技术,特别是在涉及多个阶段的视觉系统中。
一个可以接受提示的模型可以无缝地集成与其他系统,从而在更大的AI系统中执行特定任务时,能无缝对接。
图3. 在多阶段视觉系统中集成视觉提示:基础模型(Foundation Model)SegmentAnything可以利用之前对象检测模型生成的视觉提示,来进行精确的图像分割(来源:文献4)。
图3-展示了将可被提示的基础模型作为更大系统组成部分的系统:
图4., CVPR 2024年ViP-LLaVA的海报
来自CVPR开放获取的论文原文:Cai_ViP-LLaVA_Making_Large_Multimodal_Models_Understand_Arbitrary_Visual_Prompts_CVPR_2024_paper.pdf
💻 试试它:https://vip-llava.github.io/
💡主要的新颖之处: 我们引入了一种多模态模型,能够解析任意形式的视觉提示,使用户可以通过在图像上标记自然提示(如“红色边框”,“指向的箭头”)来直观地与模型互动,而不需要复杂的区域编码。
可能的应用领域:
图5. CCoT完整提示示例:首先,用图像和任务提示生成场景图。然后,通过用图像、场景图和问题提示LMM来提取答案。
这篇: https://arxiv.org/pdf/2311.17076
💻试试这个:https://github.com/chancharikmitra/CCoT
💡 主要新颖点: 开发了组合思维链(CCoT)技术,这是一种两步零样本提示流程。首先,多模态大型语言模型(MLLM)根据任务提示将图像转化为场景图。然后,利用该场景图作为上下文,生成详细且准确的响应,利用组合信息的优势而无需标注数据或进一步微调。
可能的应用领域:
图6. CVPR 2024年海报:用于点提示实例分割的语义感知SAM
论文 : https://arxiv.org/abs/2312.15895
💻 试试它: 访问此GitHub仓库 https://github.com/zhaoyangwei123/SAPNet
💡 主要创新点: 开发了语义理解实例分割网络(SAPNet),该网络结合了多实例学习(MIL)和视觉基础模型(如SAM [5])并使用点提示。SAPNet 通过策略性地选择代表性掩膜提案并利用点距离引导和框挖掘策略来提升特定类别分割效果。
潜在的应用领域:
图7. CVPR 2024关于广泛少量样本分割的视觉引导的展示海报
论文 : PDF: https://arxiv.org/pdf/2404.11732.
💻 试试它 : https://github.com/rayat137/VisualPromptGFSS
💡 主要新颖性: 使用学习到的视觉提示和变压器解码器进行通用少样本分割(GFSS)。具体而言,他们引入了新型提示(从少量示例中学习得到)和基础提示(从大量数据中学习得到)之间的单向因果注意力机制来实现通用少样本分割(GFSS)。
可能的应用:
图8. 视觉语言模型中的主动提示的CVPR 2024海报
论文 : PDF:https://arxiv.org/pdf/2311.11178
💻 试试它:https://github.com/kaist-dmlab/pcb
💡 主要创新点: 开发了一种名为PCB的主动学习框架,专门用于预训练视觉语言模型(VLM)的框架。这种方法解决了将VLM适应新任务的挑战,同时大大减少了昂贵标注的需求。
一些应用,
正如我们在这篇文章中讨论的,视觉提示技术使我们能够在输入空间中适配基础模型。这很重要,因为这种输入方式充当着人类和模型之间的通用界面。
在视觉领域的可提示的视觉模型可能会改变传统的计算机视觉流程的操作方式。许多这类模型可以被视为将取代传统流程中一些常见环节(比如标注)的基础模块。
在 Tenyks,我们认为这一变革比我们预期的更近。在我们的文章《Computer Vision Pipeline 2.0》中,我们提炼了一些关键见解,解释为什么这一变化是不可避免的。
快速了解 CVPR 2024 的亮点,获取该领域顶尖会议的精华内容在这里:
🔥 了解更多关于Segment Anything Model 2 (SAM 2)的精彩内容:
[1] 探索视觉提示以调整大规模模型
图像类比 (2)。点击这里查看: 2
[3], 语言模型可以作为无监督的多任务学习者
[4] 视觉提示
[5] 任意分割
[6] YOLO-World: 实时多词目标检测
作者:何塞·加布里埃尔·伊萨斯·蒙特罗,德米特里·卡赞。
如果你想了解更多关于Tenyks,可以去探索[sandbox](点击这里访问:https://tenyks.docsend.com/view/cyzf9j64wytwgtaj)。