本人自由职业,运营者AI开源项目https://github.com/CloudOrc/SolidUI
内部的私有数据价值越来越低,已经为了做大模型价值,存储很多私有数据,再加上例如LAION 爆火,LLM爆火,让toB 的私有数据价值逐步降低,那么数据侧还能具有的价值是共生数据,公司本身的模型加上客户的数据,两者构建一个不可以迁移的部分,这个是最有价值的数据。
AI 新的切入方向,开源数据集,对于算力的要求比较低,但是具有世界意义,是构成AI重要组成部分,LAION 就是很好的例子。
像前几天的三个00后发起开源数据集项目,目标要收集世界上所有的数据,第一部把所有arxiv 数据集成。
如果预训训练模型(LM)非常强力,那么fine tuning其实是在 90% 的场景下是完全可以被无视掉的。fine tuning 是人通过prompt 与 LLM体系达成共建关系。
最直观的场景,协同办公行业,马上就出了很多LLM入口,客户数据汇聚到这些平台里面,通过LLM体系构建一种关系。
设备制造商,在手机领域卷了很多年摄像头,急需切入这个场景的方式。
往往认识的第一KPI ,并不是最重要,一定要找到自己除此之外的点,很多人都会认识到最显眼第一KPI。
AI的发展不是周期性,根据不同的切入点做延伸,你会感觉周期性的有点另起炉灶,这种感觉我们经常过几年就会发现,曾经很流行的东西已经再没有人提这个事了。而从 AI 的发展,你如果落实在产品层面来说,这我觉得对于创业者来说是很好的,在不断创造新的可能性,但是从技术的角度来说,其实技术一直是在替换过去的既有的实践,虽然来说底层技术就确实有些延续性的,但是做过真正 AI 创业人都会发现,所谓的 AI 创业,哪怕咱不谈所有的销售或者这些商业化的东西,你 80% 的东西是产品工程, 20% 的是底层的技术。甚至好。如果你是这时候创业,而你恰好不是 open AI 或者 Anthropic 的话,你可能有 10% 的技术就不错了。而这个时候我们会发现,所有这些先来的人,他不仅是技术,行业规模,甚至利益分配这些东西都是历史包袱。
就像最近看到百度的AI搜索,集成了一堆角色场景,这个价值和规模真的有那么大影响力?具体可以等公开数据。
数据安全,合规,通过API方式解耦。类似openAI API
要随时切换不同角色看问题,一直是技术的角色,会让创业的画像损失维度。
运营其实离客户最近,他的角度一定是会把把拔高期望的,不会理解产品和技术,尤其技术会离客户更远的。产品工程看的MVP实现,又与技术有偏差,所以在现在的时代缺的是能放下历史包袱,随时切换角色的人物。
GitHub 的土壤,未来一定会在这里产生很多颠覆的性的产品,例如:langchain
其实很多时候你的最精准的用户,并不需要去写代码,只要你的模型足够强力就是能通过prompt实现内容。
代码这块,Github Copilot 已经做的足够成功,占领了先机。
低代码这件事最常见一个就是所谓的在业务后台或者后台系统构建一个东西,它解决的问题是什么呢?是标准问题下面的复杂问题呈现这什么意思?我们可以回顾一下比较火的这些低代码的平台,比如像airtable、 NocoDB,他们的上游是什么?他们上游是 SQL 数据库,非常标准的一个东西,中间我们只要从零搭建一套后台系统是非常非常繁琐的。
LLMs的上游是prompt ,这是一套新的标准。
向量数据库最主要的作用做检索和推荐作用,跟LLM关系不大,跟embedding模型是结合关系的。
OpenAI 的 embedding 模型主要用于文本表示,它可以把文本映射到低维的向量空间,实现诸如相似度计算、分类等任务。该模型具有以下主要作用:
所以,数据飞轮模式的核心是构建数据和算法的相互促进的循环。数据推动算法进步,进而产生更多数据;算法提高数据的价值,更好识别和理解数据。这种互动构成了数据飞轮,可以实现人工智能的持续快速发展。
这种商业模式优点:
市面上目前大部分垂直模型在它的领域内甚至其实性能是不如 GPT 4 的。强调了针对特定领域和任务的专业化模型的重要性。
这个原因是什么呢?因为我们现在对于通用大模型来说,我们的数据和规模远远没有达到饱和,任何有价值的领域直接就会被整合进通用模型中,不存在任何的权衡,所以这是一个完全免费的提升,所以终归会被合并进去的。
因为你任何增加新的这个领域,其实也会不仅让模型在这一个领域内的能力提升,它会影响整个横向的提升。这是大模型我们觉得非常吸引人的一个点。就之前我们做一个领域的时候,我们的积累只能让我们在这一个领域有提升,而做大模型我们发现我们的模型在横向的生长,这是非常棒的。所以总结来说就是垂直应用之间的差异应该在业务而不在模型。
多模态学习是指利用来自不同模态(模式)的数据进行机器学习的过程。现在openAI 发版主攻这块,现在还是处于初级阶段。
RLHF本身是一个比较研究性的方法,并不必然稳定或是必须的。近期一些研究,如DPO(Direct Preference Optimization),证明如果有足够丰富的人的偏好反馈数据,我们不一定需要强化学习,可以直接通过最大似然估计来优化语言模型,省去奖励模型。
所以,RLHF并不是对齐必须的手段。主要有以下原因:
RLHF是一个比较研究性的话题,实际应用中更简单和直接的方法可能更加实用。所以,它并不必然是达到对齐的唯一或最佳手段。重点是数据与优化目标,手段可以根据具体情况选择。
在风口,其实技术平权,很多公司做的不是太多,受限于环境,这时候就看谁在这个平权机会下,找到切入点,开源因为自带社区属性,离使用者近,但是很有可能不是最精准用户,有很大偏差,需要不断调整方向,产品工程角度思考。
需要不断连接多种社区,从上下游供应链的方式进行整合。
LLMs是很强生成能力,自我标注,例如:算力充沛下,能力非常强,非常智能,可以延伸很多内容,算力缺失下,需要反复确认生成内容。
随着模型迭代的参数量变,ChatGPT 对世界的认知产生了质变。他不再是单纯记住预训练的信息。现在的信息会通过理解,再被提炼为知识,然后由 GPT 为你表达。而到了 GPT-4,也可以说 他拥有超越了认知的创造力。这个过程挺像人脑的进化,神经元发展到一定数量之后,智人就拥有了主宰地球的能力。
这个非常厉害切入点,现在并没有制定标准,openAI一直不去上市,想当成立类似基金会,制定世界标准,先入的做插件的人,能够被社区接受,也就是说后续是共建规范的组织,例如:langchain,openAI