马谡王平智能体(Agent)共赢街亭(一)

智能计算   作者:高焕堂 时间:2026-03-31来源:

1. 前言:让后悔变成预见

回顾本专栏刊登过的《迈向决策式AI:提供反事实的建议》文章,曾经提到了:反事实思考(Counterfactual Thinking)使人们能够探索最初可能没有考虑过的路径和解决方案,能帮助人们以不同的方式看待事物,从而带来创造性的发现。在本文里,就拿家喻户晓的<马谡失街亭>的历史故事为例。 依据史书记载,魏太和二年,诸葛亮(即孔明)北伐,街亭为重要咽喉,诸葛亮派马谡带领诸军防守,对抗张合。马谡违背诸葛亮节度,放弃守城,改为扎营于山顶,且不听副将王平的规劝。魏将张合包围山顶,切断水源,大举进攻,蜀军溃散,街亭失守。诸葛亮被迫撤军,北伐终止。马谡失守后,诸葛亮深感任人不当,自请降职,并追究马谡之责。

那么,如果在战事爆发之前,孔明有机会触发其反事实思考,而<预见>更多可替代的策略方案,就能大幅降低孔明的<后悔>(诸葛亮深感任人不当)机会了。例如,可能的替代方案之一是:让王平当主将,并由马谡担任总参谋(副将)。或许这个替代方案真的让孔明的<后悔变成预见>。于是,就来设计核心的智能体角色(-1)

9f34ef1c-da90-45e7-9ee7-7a6284dca8b0.png

-1

虽然历史的事实不能重演,但是在AI智能体(Agent)的虚拟环境中,却能针对不同的反事实思考方案来进行模拟演练,然后观察各种可能方案的结局。这样的决策式AI能够协助决策者(如孔明、马谡),来大幅降低决策风险、提高胜率。于是,基于史书里的<马谡失街亭>故事题材,将可以打造出一个虚拟的<马谡王平智能体(Agent)共赢街亭>系统(-2)

 b14b5c48-223e-4588-a5ad-6e90d383036d.png

-2 

在人类历史上,许多伟大的决策者,都曾留下相似的感叹:「如果当时早知道……」。这句话,其实就是<后悔>。历史中充满这样的时刻:用人不当、战术失误等。决策者往往是在事件发生之后,才知道哪条路才是更好的选择。在 AI智能体的协同决策中,这种与所发生事实相反的事后之明,通称为:反事实思考(Counterfactual Thinking)

    这种思考能力,是人类创新力的重要来源之一。它能让人们重新检视过去的决策,并在未来做出更好的选择。然而,人类的大脑有一个限制:我们只能想象少数几条替代路径。但现实世界的决策空间,往往是巨大而复杂的。于是,大多数的「更好选择」,往往在历史中永远没有被看见。

    此时,AIGNN(图神经网络)模型能从KG(知识图)里探索出潜在的反事实连结(Counterfactual Link,简称:CF_Link),就有可能协助Agent获得<预见>,并进而触发人们的反事实思考,而激发人类的创造力(-3)

1fb174de-420f-4304-a4c6-592d8336fc22.png

-3 

在这AI智能体的演练中,战争爆发之前,GNN就从孔明KG探索出CF_Links,提供给王平(Agent)和马谡,让它们可以看到不同决策路径(如依城据守、山上扎营、兵分二路)的模拟结果。那么,马谡和孔明就不必在战后才后悔了,因为可以在战前就预见。 

. 智能体决策路径的模拟

     在本文里,所采取的智能体开发流程,包含三个阶段:

u   第一阶段:让 AI Agent (王平)长出策略智慧。

u   第二阶段:训练LoRA助手,让LLM()入乡随俗。

u          第三阶段:于是AgentLLM + LoRA双方协同合作,共赢街亭。也如同喜玛拉雅山的雪巴人与登山者双方协同一齐登峰。 

    其中的第一、二阶段部分,采用三国演义故事的角色来说明,所以称之为:孔明模式。而其中的第三阶段部分,则采用雪巴人协助登山者一齐登峰来说明,所以称之为:雪巴人模式(-4)

 abda3d31-a396-4989-84e7-f001b214e127.png

-4 

基于这两项众人都很熟悉的典故,作为通俗的比喻,可迅速领会智能体协作模拟的规划步骤。

A、先以孔明模式练兵

Ø   KG 为战略知识,

Ø   FSM + DT 为天地规则,

Ø   LLM 为总参谋,

    在人机双养与兵分二路之中,慢慢养成一位真正熟悉本地、能掌决策、会在场域中行走的 Agent。其中,以 KG 作为孔明的战略知识,并以 FSM(状态机) + DT(数字孪生)作为天地地势与场域规则。再聘请一位总参谋,也就是 LLM(马谡)。在这样的架构下,一方面培育出真正熟悉本地、能掌行动决策的王平(Agent)。

    接着,也透过 SFT(监督式微调),训练出懂在地规矩、能辅助解说与参谋的助理参谋(LoRA模型)。这一环节的重点是:先把兵练好,先把主将与副将的角色养成。

    然后,再进入雪巴人向导模式:由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。 

B、以雪巴人模式出征

    接着,进入雪巴人向导模式:由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。

Ø   Agent 成为登山者,

Ø   LLM + LoRA 成为雪巴人向导与副将,陪它一起前行、一起解说、一起面对风险、一起逼近山顶。  

简而言之,孔明模式练兵,雪巴人模式出征。主将掌决策,副将补智慧;知识养 AgentAgent 也养知识。于是,AI 不只会走,还会懂、会说、会陪走、会共赢。先养成王平与助理参谋,再让 AgentLoRALLM 携手登顶圣母峰。这是一条完整的工业 Agentic AI 养成之路。其中的关键点不是谁取代谁,而是主将、总参谋、助理参谋协作出征。 

C、真正进入战场

    在进入真实战场后,同一位总参谋(LLM),可以透过不同 LoRA 分身,陪伴不同军事队伍的指挥官(Agent);并在各自场域中,协助理解候选策略、提示风险方向、强化人机协作,最终帮助Agent所追求的整体战术效益更稳、更高。于是,同一个 LLM 可透过不同 LoRA,陪不同 Agent 进入不同战区。由Agent 掌决策,LLM 协助理解、帮助探索、提共解说,最终共同放大整体的战术效益。亦即,总参谋一人,分身多路;主将各自领军,副将各擅其场,最终让候选更清、风险更明、效益更高。

其中,Agent 负责真正的行动决策与战术执行;LLM + LoRA 则负责理解行动方案(Rollout)、解说局势、协助理解候选策略,并放大 CF_Links 的风险提示与探索价值。于是,在 KGDTEvent 的外围压力与场域条件下,整体协作就能把 Agent 所追求的最终战术效益推向更高水平,完美实践智能体决策路径的模拟。 

3. 结语

     KG 为孔明的战略知识,以 FSM + DT 为天地规则,并聘请总参谋 LLM(马谡),逐步培育出熟悉本地、能掌决策的王平(Agent),以及懂在地规矩、能辅助解说与参谋的助理参谋(LoRA)。接着,再进入雪巴人向导模式,由 Agent 担任登山者,LLM + LoRA 担任雪巴人与副将,三者一起出征,最终目标是协力登顶圣母峰。

简而言之,这套葵花宝典的核心是:FSM + KG 兵分二路,透过人机双养,培育会自主决策Agent。进而,藉由Agent + LoRA(LLM)协同合作,让登山者与雪巴人一起登峰。这可比喻为:王平掌握行动策略,马谡补语义,LoRA助在地;孔明定知识,天地映场域,司马懿施事件——多方协作,以虚拟的<马谡王平智能体(Agent)共赢街亭>系统,来观察后悔变成预见的美好效果。

在下一集里,将继续说明和演示上述孔明模式与雪巴人模式的实施细节。 

关键词: 智能体 202603

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版