从构建软件到构建学习系统
认真完成这一转型的企业,收获的将不只是更优秀的功能,而是一种可复利的结构性优势,且会随着每一轮部署周期不断扩大。
在软件工程的大部分历史里,我们一直遵循一种看似简单的模式:工程师定义行为,系统执行行为;行为出错时工程师修复,需求变更时工程师重写。在版本发布之间,系统是静态的 —— 它不会从生产环境的观测中学习,不会适配用户真实行为,也不会自主优化。
这种模式正在过时。不是因为工程师被取代,而是他们所构建的系统在本质上发生了改变。新一代软件系统会从运行产生的数据中持续学习,通过强化学习与结构化实验自主优化行为,某些场景下甚至能在运行时自动生成并部署代码。
软件工程正从构建软件转向构建学习系统。这一变革的重要性,堪比当年从瀑布开发转向敏捷开发。这是我在里约热内卢举办的2026 国际软件工程大会(ICSE) 上的核心观点,本文将结合已落地实践的企业,进一步展开解读。
关键区别:用 AI 的系统 vs 会持续学习的系统
我们必须清晰区分两类系统:
大多数企业只做到了在产品里嵌入 AI 模型,提升预测能力、推出更智能的功能。
极少企业做到了打造能自动闭环 “部署 — 优化” 的生产系统,无需工程师手动采集数据、重新训练、重新发布。
两者不是程度差异,而是架构差异。
学习系统把每一次生产交互当作训练信号,每一次发布当作一次实验,每一次失败当作反馈。构建它需要全新的设计模式、基础设施,以及对软件工程本质的重新理解。
四大技术融合,让规模化学习系统成为可能
1. 强化学习(RL)
监督学习需要提前准备标注数据,而强化学习让系统在实践中学习:执行动作、观测结果、朝着更优方向更新行为。
在内容推荐、物流路径、网络优化等序列决策场景,这是颠覆性能力升级。用 RL 优化配送路线的系统,不需要工程师告诉它最优路径,而是通过实测、评估、持续迭代找到最优解。
Ray 分布式计算框架背后的Anyscale,通过 RLlib 让工业级强化学习可工程化落地。Grab、爱立信、摩根大通等都在这套基础设施上运行实时强化学习任务,Physical Intelligence 也用它训练机器人系统。
Anyscale 证明:RL 不再是局限于游戏基准的科研玩具,而是已在关键业务流程中规模化运行的工程能力。
2. 联邦学习(FL)
它解决了 AI 商业化以来的结构性难题:世界上最有价值的数据大多不能移动。
医疗记录受隐私法规约束
金融交易受保密协议限制
工业设备传感器数据归客户所有
车辆遥测数据分散在全球各地
传统 AI 训练需要集中数据,导致绝大多数高价值企业场景无法使用。
联邦学习完全颠覆这一逻辑:不把数据搬到模型,而是把模型分发到数据所在端侧;本地完成训练,只回传模型的数学更新量,不传输原始数据,再聚合为全局共享模型。
来自剑桥大学研究、由 Felicis、Mozilla Ventures、Hugging Face CEO 等投资的Flower Labs,打造了全球最流行的开源联邦学习框架,诺基亚、保时捷、三星、Brave 均已商用,曾支持1500 万客户端同时实验。
对汽车、医疗、金融、工业物联网等数据分散、敏感、受监管的软件密集型企业,Flower 打开了利用此前无法触及的数据训练 AI 的通道。
其竞争意义重大:能用私有分布式数据训练的企业,将拥有对手仅靠公开 / 集中数据无法匹敌的 AI 系统。
3. 运行时代码生成与自愈
这是四项技术中商业化成熟度最低,但对软件工程学科理论意义最大的一项。
传统软件失败只有两种:明显崩溃(可检测修复)或静默退化(难以发现)。
学习系统可以做到:遇到从未见过的运行时故障,动态生成处理逻辑、自动部署修复、无需人工干预继续运行。
多所高校研究团队已用大模型在原型系统中验证:结合错误上下文、程序状态、预期行为,在运行时生成异常处理策略。
商用层面,Cursor、Windsurf 等系统已朝此方向演进,但仍需开发者辅助,尚未完全自治。
研究与生产落地仍有差距,但方向明确:能自主响应故障并修改自身的系统,与需要人工恢复的系统有本质区别。
4. 系统化 A/B 实验
这是最被低估的技术。
大多数企业只在产品经理有假设时偶尔做实验;而高速学习型企业把实验变成持续化、结构化:
每一次发布都是实验
每一次系统决策都是可验证假设
从观测到优化的链路全自动运行
这不仅是工具变化,更是软件系统优化理念的升级。
巴黎创立的Kameleoon是欧洲顶尖实验平台,将特性开关、A/B 测试、多变量实验、实时 AI 定向投放整合在一体。其架构核心理念:实验与个性化不是割裂行为 —— 实验信号优化下一轮定向,用户行为数据指导下一轮测试。
每年运行数千次实验的企业,学习速度与只做几十次的企业完全不在一个量级。
四大技术合一:形成可复利的学习架构
单独看只是工具,组合起来则构成完整学习架构:
强化学习需要奖励信号,来自对用户与系统行为的持续观测
联邦学习处理分布式数据,产出的模型可通过 RL 与实验持续优化
运行时代码生成让故障闭环速度远超人工开发周期
系统化 A/B 实验在全量发布前用真实行为验证每一次改动,形成数据飞轮,让每一轮学习迭代质量复利提升
每项技术都在放大其他技术的效果,共同定义了:什么是学习系统,而非静态系统。
构建学习系统,需要工程组织尚未具备的能力
这一转型对软件工程的影响深远:
奖励函数设计:定义 RL 系统优化目标,是产品思维与 ML 工程交叉的全新难题
数据治理与隐私架构:是联邦学习的前提,而非事后补救
可观测性工具:监控自主修改行为的系统,与监控固定代码的系统完全不同
组织架构:以项目为中心的开发模式,往往不适应学习系统要求的持续数据驱动优化循环
认真完成转型的企业,将获得结构性复利优势:
生产中的每一次交互都产生数据,每一份数据都优化模型,每一次模型优化都让下一轮实验更有价值,学习速度会越来越快。
固守静态系统的企业,将面临不断扩大的能力鸿沟,即便招聘更多工程师、加快发布速度也无法弥补。
最后引用唐纳拉・梅多斯:
“你无法从系统内部理解一个系统。”
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码