生成式AI这个产业。分成上中下游三大块。
主要包括:
这是AI的基础,也是过去AI研究的重点。
大模型层分为:
包括:
产业中,我们的位置是在AI GC工具层,即AI Agent层,作为中间件,承上启下。应用开发者的位置可能更多在中游和下游,发挥着重要作用。
当然,可以按以下类别对这些概念进行细分解释:
多模态:处理多种不同类型数据的模型。支持多种形态的模型,如文字、图像、音频等
自监督学习:利用数据本身结构进行训练的方法。
预训练:在大规模数据上训练模型,以获得初始参数。
Few-shot:使用少量样本进行训练和推理的能力。
One-shot:使用单个样本进行训练和推理的能力。
Zero-shot:无需样本也能进行推理的能力。
Temperature:控制生成模型输出多样性的参数。
RLHF (基于人类反馈的强化学习):通过人类反馈优化AI行为的方法。
Fine-tunes:在预训练模型基础上,进行特定任务的微调。
向量搜索:通过向量化表示进行高效搜索的方法。
向量数据库:存储和检索向量化数据的数据库。
NLP (自然语言处理):处理和生成自然语言的技术。
CV (计算机视觉):理解和生成图像和视频的技术。
分析式AI:侧重于分析和理解数据的AI。
知识图谱:以图结构表示知识及其关系的数据结构。
过拟合:模型过度拟合训练数据而无法泛化到新数据的现象。
AI推理:AI对数据进行推断和决策的过程。
生成对抗网络:通过两个网络的对抗来提高生成结果质量的方法。一种神经网络类型,用于生成真实的图像。(Generative Adversarial Networks, GANs)是一种由 Ian Goodfellow 等人在 2014 年提出的深度学习模型。GANs 通过两个网络(生成器和判别器)相互对抗的方式来提高生成结果的质量。这两个网络的具体角色和对抗机制如下:
生成器(Generator):生成器接受一个随机噪声向量作为输入,并生成伪造的数据(例如图像)。它的目标是生成尽可能真实的数据,以便欺骗判别器。
判别器(Discriminator):判别器接受真实数据和生成器生成的伪造数据,并试图区分两者。判别器的目标是尽可能准确地识别出哪些数据是真实的,哪些是伪造的。
在训练过程中,生成器和判别器会交替优化自己的参数:
这种对抗机制形成了一个零和游戏,最终生成器会生成出非常逼真的数据,使得判别器难以辨别其真假。
综上,生成对抗网络是一种通过两个网络的对抗来提高生成结果质量的方法,也是一种用于生成真实图像的神经网络类型。
元学习:学习如何学习的方法,提高模型在新任务上的适应能力。
并行训练:同时训练多个模型或在多台设备上训练单个模型的方法。
关注我,紧跟本系列专栏文章,咱们下篇再续!
作者简介:魔都技术专家,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。
各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。
负责:
- 中央/分销预订系统性能优化
- 活动&优惠券等营销中台建设
- 交易平台及数据中台等架构和开发设计
- 车联网核心平台-物联网连接平台、大数据平台架构设计及优化
- LLM应用开发
目前主攻降低软件复杂性设计、构建高可用系统方向。
参考: