使 LLM 成为可能的一个基本概念是向量嵌入。其背后的基本思想很简单:ML 模型需要数字才能发挥作用,而向量化会将不同类型的数据转换为文本。
嵌入技术在当今的人工智能技术领域中十分普遍,包括常见的ChatGPT和Claude,以及谷歌搜索、语音助手等。
我们也在基于 RAG 的模型中使用它们来提供客户服务。
但是,就像人工智能中的一切一样,矢量化的科学也经历了翻天覆地的变化,并产生了一些使过程复杂化的术语。所以,今天,在本指南中,我们将破除这些术语,并告诉您矢量化的实际工作原理。
首先,我们从关键主题开始:“什么是向量嵌入,以及 波兰手机号 它们是如何生成的?”
什么是向量嵌入?
机器学习利用数字以及由数字构建的矩阵进行工作。
然而,在现实生活中,数据更加复杂。每当你遇到包含大量文本或其他内容的数据集时,都需要将其转换为向量(基本上是数字列表)才能将其用于机器学习。
这些是如何创建的?通过检查两个数据集的相 统一机器学习工作流程 似性来映射它们之间的距离。
因此,如果我们有两句话:
- 我爱你。
- 你爱我。
其中余弦角为0.667(余弦越 人工智能和机器学习的关键接近1,相似度越高)。
现在,这个角度映射了两个句子之间的相似性。并且这种相似性映射开始显示出显著的效果。
由于相似的词语经常在相似的语境中 资料库资料库 使用(例如:我们经常一起使用“sun”和“bright”),我们可以将现实世界中的含义映射到向量空间中的距离。
因此,现在机器学习算法可以关联
- “猫”与“宠物”
- “一个小男孩正在走路” 与“一个小男孩正在跑步”。
- “杰克和吉尔”和“上山了”。
通过这些距离,向量嵌入可以帮助您的 LLM 映射单词含义并按概率猜测序列中的以下单词。
现在,ML 中最常见的向量是密集向量;让我们来讨论一下它们。