AI大模型开发架构设计(1)——LLM大模型Agent剖析和应用案例实战

慈云数据 8个月前 (03-13) 技术支持 132 0

文章目录

    • LLM大模型Agent剖析和应用案例实战
      • 1 从 LLM 大模型到智能体演进技术
        • 语言模型是什么?
        • 语音模型是什么?
        • 大语言模型日新月异
        • LLM大模型存在局限性
        • LLM Agent来势凶凶
        • LLM Agent增长迅猛
        • LLM Agent是什么?
        • 2 LLM Agent 架构深度剖析
          • 规划能力是什么?
          • 记忆能力是什么?
          • 工具使用能力是什么?
          • 3 LLM Agent 应用案例实战
            • Auto-GPT
            • 基于 LangChain 实现一个 Code Interpreter

              LLM大模型Agent剖析和应用案例实战

              1 从 LLM 大模型到智能体演进技术

              语言模型是什么?
              • 语言模型:给定一些字或者词(称为 token),预测下一个字或者词的模型。

                image.png

                大语音模型是什么?
                • 大语言模型(Large Language Model, LLM)是一类基于深度学习的语言模型,它们在大量的文本数据上进行训练,可以完成各种任务,包括代码编写、总结、翻译等。LLM 的特点是规模庞大,包含数十亿的参数,帮助它们语言数据中的复杂模式。

                  image.png

                  大语言模型日新月异

                  image.png

                  LLM大模型存在局限性
                  • 简单的推理也会犯错?
                  • 多聊几句就忘记历史信息了?
                  • 写了代码能不能运行验证下?
                  • image.png

                    LLM Agent来势凶凶

                    image.png

                    • Agent = LLM(大语言模型,就好比人的大脑) + Plan(规划能力)+Memory(记忆能力)+Tools(工具使用能力)
                      LLM Agent增长迅猛

                      image.png

                      LLM Agent是什么?
                      • LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。
                        • 规划能力
                          • 既然 LLM 难以直接处理复杂任务,一个直接的思想就是将任务进行拆解,通过实现几个小目标从而实现一个目标。此外,LLM Agent 可以对过去的行为自我批判和反思,从错误中吸取教训,并对未来的行为进行改进,从而提升最终的效果。
                          • 记忆能力
                            • 既然 LLM 的上下文有限,扩展其记忆能力肯定不可或缺。
                            • 工具使用能力
                              • 如果能够让 LLM 既能帮你写代码,还能帮你跑代码,那这样一个智能体的发挥空间就取决于你的想象力了。

                                LLM Agent 可以理解为一个以 LLM 为大脑的智能体(类比人),集成了规划、记忆、工具使用等能力。

                                image.png

                                2 LLM Agent 架构深度剖析

                                规划能力是什么?
                                • 规划能力,本质上希望激发 LLM 的最大潜能,“引导”或者“提示” LLM 更好地回答问题,因为规划能力很大一部分还在 Prompt Engineering 上。

                                  【方式一】任务拆解

                                  • 就是把任务分成一步一步来执行,一步一步像一条链吗?——CoT 思维链

                                    image.png

                                    CoT任务拆解的缺陷是什么?

                                    • 链式任务拆解方式可能忽略一些潜在情况,因为一步之后只能选择往下一步,没有多种选择余地。

                                      image.png

                                      任务拆解三种方式

                                      • 让 LLM 自己来拆解,比如前面的 ToT Prompt,还有常见的拆解 Prompt,“Step for XYZ”等
                                      • 任务相关的引导,比如写小说,可以让 LLM 写一个小说的大纲 “Write a story outline.”
                                      • 用户自己分解任务,类似 CoT,自己写出满意的步骤再让 LLM 来模仿

                                        LLM和传统规划方式结合

                                        image.png

                                        【方式二】自我反思

                                        • 当我做事情时,做对或者做错都会让我们思考怎么做得更好
                                        • 从 Agent 的角度出发,接收一个观测(Observation),给出一个动作(Action)(强化学习的感觉)

                                          image.png

                                          • 告诉 LLM 应该按照“思考-行动-观测”的方式来获得最终的回答
                                            • few-shot Learning + 提供 thought

                                              举个🌰

                                              image.png

                                              记忆能力是什么?

                                              LLM的记忆是什么?

                                              • 训练数据 -> 模型参数(fixed) —— 长期记忆
                                              • 上下文提示(Context),我们喂给 LLM 信息的地方—— 短期记忆
                                                • 记忆容量(上下文长度)有限,“按需投喂”:先存后取

                                                  LLM + 向量数据库

                                                  • 存 -> 向量数据库的核心思想是将文本转换成向量(Embedding),然后将向量存储在数据库中。
                                                  • 取 -> 讲用户输入的问题转成向量,然后在数据库中国检索最相似的向量,以及向量对应的文本(记

                                                    忆),返回给 LLM,生成回答。

                                                    image.png

                                                    举个🌰

                                                    image.png

                                                    当“记忆”非常多时,如何在大量“记忆”力快速找到最相关的那些“记忆”?

                                                    • 近似最近邻(Approximate Nearest Neighbor)
                                                      • 牺牲了精度,换取了速度
                                                      • ANN 多种实现:局部敏感哈希、乘积量化等
                                                      • 核心思想通过某种方式,将数据的特征压缩或分组,在搜索时,只需在部分数据中寻找最近邻

                                                        在这里插入图片描述

                                                        工具使用能力是什么?

                                                        工具使用能力

                                                        • 巧妇难为无米之炊,仅靠 LLM 自身能做的事情还是比较有限,比如:LLM 可以帮忙写代码,但是无法执行代码,因此要让 LLM 能做更多事情,就需要借它点工具。

                                                          image.png

                                                          工具使用能力-function calling

                                                          • 开发者定义一个第三方函数(自定义工具)
                                                          • 调用 OpenAPI 时,把第三方函数作为参数传给 LLM
                                                          • LLM 判断何时需要调用第三方函数(注意:LLM 只是判断,然后由开发者来执行)
                                                          • 开发者调用第三方函数后,要把返回值传给模型(再次调用 OpenAI API)
                                                          • 此时 LLM 的返回值则是最终的回答

                                                            image.png

                                                            工具使用能力-HuggingGPT

                                                            • 理解用户自然语言指令,并计划分配任务
                                                            • 根据 Hugging Face 上的模型描述,选择合适的工具(AI 模型)
                                                            • 调用 AI 模型执行子任务
                                                            • 整合结果并返回结果

                                                              image.png

                                                              3 LLM Agent 应用案例实战

                                                              Auto-GPT
                                                              • Auto-GPT 是一个开源的实验性项目,它算是 LLM Agent 的一个标准雏形了,包括前面提前的各种能力(规划、记忆、使用工具),可以根据用户的目标让 GPT-4 实现完全自主运行。

                                                                image.png

                                                                • Auto-GPT 的效果很大程度上归功于它复杂的 Prompt 工程,主要包含几个部分:

                                                                  • 需要设定交给 Auto-GPT 完成的目标
                                                                  • 调用 API 花费的预算
                                                                  • 一些 LLM 需要遵守的规则(约束)
                                                                  • 可以调用的工具(API)
                                                                  • 返回需要格式

                                                                    image.png

                                                                    Auto-GPT 的输出

                                                                    image.png

                                                                    • 可以看出,这里既有任务拆解,也有反思,同时还具有调用外部工具的能力,而记忆能力(向量数据库)虽然这里不能直接体现出来,但是 Auto-GPT 也是具备的。

                                                                      Auto-GPT 的主要框架设计

                                                                      image.png

                                                                      • 可以看出,创建一个初始的计划,然后进入主循环。系统会让模型判断在当前计划下该进行何种行动,接着会执行行动。执行完毕后,结果会写入下一次循环中。如此,每次决策都会基于之前的结果、记忆和计划,从而制定出新的行动方案。
                                                                        基于 LangChain 实现一个 Code Interpreter
                                                                        • LLM Agent 技术架构设计和应用实现——对于 IT人来说是一项非常重要的技能,它可以让您的 LLM 业务研发更高效和创新。

                                                                          image.png

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon