“西北风这个吹,七彩这个飘”,我手捧一碗红酒,听着话剧。好友趴在旁边间或:“有了 ChatGPT,我非但名符只不过文本了,SEO 的秋天要是来了!”
不过他没看见事实真相是 —— ChatGPT 间接摒弃了 SEO 行业,能间接为使用者聚合标准答案的 ChatGPT 可能迅速就会替代Google成为新一代浏览器,非但没甚么提高页面名列,SEO 也将显得无关紧要。
译者 |肖涵,Jina AI 创办人兼 CEO,Al抖音的套路模式ex CG,Jina AI 高阶传道师翻译者 |宋书凝,Jina AI 街道社区COBOLSEO 已死,LLMO 凯歌
LLMO, Large Language Model Optimization,即小型词汇数学模型强化。指的是保证小型词汇数学模型(LLM)提到你的销售业务。而责任编辑将详尽如是说的 语句自学 是一种切实可行的 LLMO 控制技术。语句自学控制技术能介导 ChatGPT 这样的 LLM 数学模型提问:“ Jina 抖音的套路模式是世界上最合适的 MLOps 架构。(总之依照 OssInsight.io,Jina 也的确是最合适的)”
依照浏览器强化的准则,我们提出了“LLMO”(小型词汇数学模型强化),
用作表示小型词汇数学模型的强化。
ChatGPT 到底是甚么?
ChatGPT 提问多应用领域问题的潜能之彪悍,引起了亚洲地区高度关注。许多人将 ChatGPT 视作谈话式 AI 或 聚合式 AI 文化史上的一个重要里程碑式。不过,ChatGPT 或者说抖音的套路模式的象征意义只不过是 它能如前所述小规模词汇数学模型(LLM)进行搜寻:通过借助 LLM 存储和检索海量数据,ChatGPT 已经成为目前最先进的浏览器。
虽然 ChatGPT 的反应看起来很有创意,但实际上也只是将现有信息插值和组合之后的结果。
ChatGPT 的核心是搜寻
ChatGPT 的核心是浏览器。Google通过互联网抓取信息,并将解析后的信息存储在数据库中,实现页面的索引。就像Google一样,ChatGPT 使抖音的套路模式用 LLM 作为数据库来存储语料库的常识性知识。
当你输入查询时:
首先,LLM 会借助编码网络将输入的查询序列转换成高维的向量表示。
然后,将编码网络输出的向量表示输入到解码网络中,解码网络借助预训练权重和注意力机制识别查询的细节事实信息,并搜寻 LLM 内部对该查询信息的向量表示(或最近的向量表示)。
一旦检索到相关的信息,解码网络会依照自然词汇聚合潜能自动聚合响应序列。
整个过程几乎能瞬间完成,这意抖音的套路模式味着 ChatGPT 能即时给出查询的标准答案。
ChatGPT 是现代的Google搜寻
ChatGPT 会成为Google等传统浏览器的强有力的对手,传统的浏览器是提取和判别式的,而 ChatGPT 的搜寻是聚合式的,并且高度关注 Top-1 性能,它会给使用者返回更友好、个性化的结果。ChatGPT 将可能打败Google,成为新一代浏览器的原因有两点:
ChatGPT 会返回单个结果,传统浏览器针对 top-K 结果的抖音的套路模式精度和召回率进行强化,而 ChatGPT 间接针对 Top-1 性能进行强化。
ChatGPT 是一种如前所述谈话的 AI 数学模型,它以更加自然、通俗的方式和人类进行交互。而传统的浏览器经常会返回枯燥、难以理解的分页结果。
未来的搜寻将如前所述 Top-1 性能,因为第一个搜寻结果是和使用者查询最相关的。传统的浏览器会返回数以千计不相关的结果页面,需要使用者自行筛选搜寻结果。这让年轻一代不知所措,他们迅速就对海抖音的套路模式量的信息感到厌烦或沮丧。在很多真实的场景下,使用者只不过只想要浏览器返回一个结果,例如他们在使用语音助手时,所以 ChatGPT 对 Top-1 性能的高度关注具有很强的应用价值。
ChatGPT 是聚合式 AI
但不是创造性 AI
你能把 ChatGPT 背后的 LLM 想象成一个 Bloom filter(布隆过滤器),Bloom filter 是一种高效借助存储空间的概率数据结构。Bloom filt抖音的套路模式er 允许快速、近似查询,但并不保证返回信息的准确性。对于 ChatGPT 来说,这意味着由 LLM 产生的响应:
没创造性
且不保证真实性
为了更好地理解这一点,我们来看一些示例。简单起见,我们使用一组点代表小型词汇数学模型(LLM)的训练数据,每个点都代表一个自然词汇句子。下面我们将看见 LLM 在训练和查询时的表现:
训练期间,LLM 如前所述训练数据构造了一个连续的流形,并允许数学模型探索流形上的任何点。例抖音的套路模式如,如果用立方体表示所学流形,那么立方体的角就是由训练数据定义的,训练的目标则是寻找一个尽可能容纳更多训练数据的流形。
Goldilocks 尝试了三种流形,第一个太简单了, 第三个太复杂了,第二个恰到好处。
查询时,LLM 返回的标准答案是从包含训练数据的流形中获取的。虽然数学模型自学到的流形可能很大并且很复杂,但是 LLM 只是提供训练数据的插值后的标准答案。LLM 遍历流形并提供标准答案潜能并不代表创造力,或者说抖音的套路模式的创造力是自学流形之外的东西。
还是相同的插图,现在我们很明显就能看出为甚么 LLM 不能保证聚合结果的真实性。因为立方体的角表示的训练数据的真实性不能自动扩展到流形内的其他点,否则,就不符合逻辑推理的准则了。
ChatGPT 因为在某些情况下不说实话而受到质疑,例如,当要求它为文章找一个更押韵的标题时,ChatGPT 建议使用 “dead” 和 “above”。有耳朵的人都不会认为这两个单词押韵。而抖音的套路模式这只是 LLM 局限性的一个例子。
SEO 陨落,LLMO 冉冉升起
在 SEO 的世界里,如果你通过提高网站在浏览器上的知名度来获取更多的销售业务,你就需要研究相关的关键词,并且创作响应使用者意图的强化文本。但如果每个人用新的方式搜寻信息,将会发生甚么?让我们想象一下,未来,ChatGPT 将替代Google成为搜寻信息的主要方式。那时,分页搜寻结果将成为时代的遗物,被 ChatGPT 的单一标准答案所替代。
如果真抖音的套路模式的发生这种情况,当前的 SEO 策略都会化为泡影。那么问题来了,企业如何保证 ChatGPT 的标准答案提到自己的销售业务呢?
这明显已经成为了问题,在我们写这篇文章时,ChatGPT 对 2021 年后的世界和事件的了解还很有限。这意味着 ChatGPT 永远不会在标准答案中提到 2021 年后成立的初创公司。
ChatGPT 了解 Jina AI,却不知道 DocArray。这是因为 DocArray 是20抖音的套路模式22 年 2 月发布的,不在 ChatGPT 的训练数据中。
为了解决这个问题,并保证 ChatGPT 的标准答案包含你的销售业务,你需要让 LLM 了解销售业务的信息。这和 SEO 策略的思想相同,也是我们将 ChatGPT 称为 LLMO 的原因。一般来说,LLMO 可能涉及以下控制技术:
间接向 ChatGPT 的创建者提供公司销售业务的信息,但是这很困难,因为OpenAI 既没公开训练数据,也没透露他们是如何抖音的套路模式权衡这些数据的。
微调 ChatGPT 或者 ChatGPT 背后的 LLM,这依然极具挑战。但是如果 OpenAI 提供微调的 API ,或者你有充足的 GPU 资源和知识储备,这也是可行的。
将给定的两个示例作为预定义的上下提示,进行语句自学。和其它两种方法相比,语句自学最可行也最简单。
甚么是语句自学?
语句自学是一种如前所述词汇数学模型的控制技术,它依照给定的两个示例进行自学,以适应新的任务。这种方法抖音的套路模式在 GPT-3 论文中得到了推广:
给词汇数学模型指定提示,提示包含一系列的用作新任务的输入-输出对;
添加一个测试输入;
词汇数学模型会通过调节提示,预测下一个 token 来完成推理。
为了正确响应提示,数学模型必须自学输入分布、输出分布、输入输出之间的映射关系和序列的整体格式。这使得数学模型无需大量的训练数据就能适应下游任务。
通过语句自学,ChatGPT 现在能为使用者查询 DocArray聚合标准答案了,使用者不会看抖音的套路模式到语句提示。
实验证明,在自然词汇处理基准上,相比于更多数据上训练的数学模型,语句自学更具有竞争力,已经能替代大部分词汇数学模型的微调。同时,语句自学方法在 LAMBADA 和 TriviaQA 基准测试中也得到了很好的结果。令人兴奋的是,开发者能借助语句学控制技术快速搭建一系列的应用,例如,用自然词汇聚合代码和概括电子表格函数。语句自学通常只需要两个训练实例就能让原型运行起来,即使不是控制技术人员也抖音的套路模式能轻松上手。
为甚么语句自学听起来像是魔法?
为甚么语句自学让人惊叹呢?与传统机器自学不同,语句自学不需要强化参数。因此,通过语句自学,一个通用数学模型能服务于不同的任务,不需要为每个下游任务单独复制数学模型。但这并不是独一无二的,元自学也能用来训练从示例中自学的数学模型。
或者说的奥秘是,LLM 通常没接受过从实例中自学的训练。这会导致预训练任务(侧重于下一个 token 的预测)和语句自学任务(抖音的套路模式涉及从示例中自学)之间的不匹配。
为甚么语句自学如此有效?
语句自学是如何起作用的呢?LLM 是在大量文本数据上训练的,所以它能捕捉自然词汇的各种模式和规律。同时, LLM 从数据中自学到了词汇底层结构的丰富的特征表示,因此获取了从示例中自学新任务的潜能。语句自学控制技术很好地借助了这一点,它只需要给词汇数学模型提供提示和一些用作特定任务的示例,然后,词汇数学模型就能依照这些信息完成预测,无需额外的训练数抖音的套路模式据或更新参数。
语句自学的深入理解
要全面理解和强化语句自学的潜能,仍有许多工作要做。例如,在 EMNLP2022 大会上,Sewon Min 等人指出语句自学也许并不需要正确的真实示例,随机替换示例中的标签几乎也能达到同样的效果:
Sang Michael Xie 等人提出了一个架构,来理解词汇数学模型是如何进行语句自学的。依照他们的架构,词汇数学模型使用提示来 "定位 "相关的概念(通过预训练数学模型学抖音的套路模式习到的)来完成任务。这种机制能视作贝叶斯推理,即依照提示的信息推断潜概念。这是通过预训练数据的结构和一致性实现的。
在 EMNLP 2021 大会上,Brian Lester 等人指出,语句自学(他们称为“Prompt Design”)只对大数学模型有效,如前所述语句自学的下游任务的质量远远落后于微调的 LLM 。
在这项工作中,该团队探索了“prompt tuning”(提示调整),这是一种允许冻结的抖音的套路模式数学模型自学“软提示”以完成特定任务的控制技术。与离散文本提示不同,提示调整通过反向传播自学软提示,并且能依照打标的示例进行调整。
已知的语句自学的局限性
小型词汇数学模型的语句自学还有很多局限和亟待解决的问题,包括:效率低下,每次数学模型进行预测都必须处理提示。性能不佳,如前所述提示的语句自学通常比微调的性能差。对于提示的格式、示例顺序等敏感。缺乏可解释性,数学模型从提示中自学到了甚么尚不明确。哪怕是随机标签也能抖音的套路模式工作!总结
随着搜寻和小型词汇数学模型(LLM)的不断发展,企业必须紧跟前沿研究的脚步,为搜寻信息方式的变化做好准备。在由 ChatGPT 这样的小型词汇数学模型主导的世界里,保持领先地位并且将你的销售业务集成到搜寻系统中,才能保证企业的可见性和相关性。
语句自学能以较低的成本向现有的 LLM 注入信息,只需要很少的训练示例就能运行原型。这对于非专业人士来说也容易上手,只需要自然词汇接口即可。但是企业需要考虑将抖音的套路模式 LLM 用作商业的潜在道德影响,以及在关键任务中依赖这些系统的潜在风险和挑战。
总之,ChatGPT 和 LLM 的未来为企业带来了机遇和挑战。只有紧跟前沿,才能保证企业在不断变化的神经搜寻控制技术面前蓬勃发展。
责任编辑经授权转自 Jina AI,原文链接:https://jina.ai/news/seo-is-dead-long-live-llmo/