将整个文本转化为实数向量的技术。
Embedding优点是可将离散的词语或句子转化为连续的向量,就可用数学方法来处理词语或句子,捕捉到文本的语义信息,文本和文本的关系信息。
◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接近
◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示:
目前的向量模型从单纯的基于 NLI 数据集(对称数据集)发展到基于混合数据(对称+非对称)进行训练,即可以做 QQ召回任务也能够做 QD 召回任务,通过添加 Instruction 来区分这两类任务,只有在进行 QD 召回的时候,需要对用户 query 添加上 Instruction 前缀。
模型选择:
用户提供垂类文档数据,VDB对模型进行微调,助力垂类应用效果更进一步。
优化1:对比学习拉近同义文本的距离,推远不同文本的距离
优化2:短文本匹配和长文本匹配使用不同prompt,提升非对称类文本效果
优化3:预训练阶段提升基座模型面向检索的能力,对比学习阶段提高负样本数
“首家”:
自研:
性价比:
模型简化:
共享GPU集群:
提供一站式知识检索方案,实现业界内最高召回率、大幅降低开发门槛,帮助企业快速搭建RAG应用,解决大模型幻觉问题。
源自腾讯自研向量检索引擎OLAMA,集团内部40+业务线上使用,日均处理1600亿次检索请求。