科技日报记者 杨雪
近日,由北京大学人工智能研究院、工学院、计算机学院和伦敦国王学院共同完成的研究成果——“大规模多智能体系统的高效强化学习”,在国际学术期刊《自然·机器智能》上发表。这一成果首次在大规模多智能体系统中实现了高效的去中心化协同决策,提升了人工智能决策算法的扩展性和适用性。
多智能系统主要以庞大的智能体交互数据为基础,利用大量计算资源驱动每个智能体学习如何与其他智能体合作执行复杂任务,其核心范式是多智能体强化学习。“比如一个无人机编队,每架无人机都由AI控制,我们把每架飞机的控制器叫做智能体,这个无人机编队由多个智能体构成,它就是一个多智能体系统。”论文第一作者、北京大学人工智能研究院博士生马成栋解释。
当前,国际学术前沿正聚焦“去中心化的多智能体强化学习”,这一人工智能范式旨在探索一种算法,能够在有限数据和资源条件下,将决策能力扩展到包含大量智能体的复杂真实系统中。
论文通讯作者、北京大学人工智能研究院助理教授杨耀东介绍,他们通过网络化结构解耦系统的全局动态特性,使智能体能够独立学习局部状态转移、邻域信息价值和去中心化策略,将复杂的大规模决策难题转化为更容易求解的优化问题。这样,大型人工智能系统即使在样本数据和信息交互受限的情况下,也能实现令人满意的决策性能。
这是一种“窥一斑而知全豹”的能力。例如,城市中的每个信号灯仅通过接收相邻路口的车流信息,就能调控复杂的交通流。这是因为整体交通状况已经通过城市路网间接传递并汇总到相邻路口,通过分析这些相邻路口的观测信息,就能推断和预测整个城市的车流变化,从而做出最优决策。
马成栋介绍,在真实大规模系统中,每个控制单位之间和控制单位与环境之间的交互成本是非常高昂的。这些系统中经常存在客观的通信限制,如通信距离太远、全局通信有隐私泄露风险、通信能耗限制等,控制单位之间难以实现全局的信息交换,阻碍了人工智能决策算法在大规模系统中的扩展和应用。“去中心化的多智能体强化学习”以不依赖全局信息的方式让每个智能体实现了高效的去中心化协同决策,展现出独特的优势。
早在上世纪90年代,强化学习教父Richard Sutton就提出了,基于模型的方法,通过了解系统内部变化规律,帮助我们更好地制定策略。后续也有研究者以网络化的形式建模智能体之间的关系从而提升算法扩展性。受这一研究思路的启发,杨耀东研究团队创新性地提出了他们的算法。
研究团队在具有数百个智能体的较为复杂的城市交通和电力网络中进行了测试。结果显示,相较于现有的中心化多智能体学习方法,他们的信息交换成本只有现有方法的30%左右甚至更低,尤其当智能体数量不断增长时,这一比例还会显著下降。同时,样本效率也能大幅度提升50%以上。
“这对于AI模型扩展到大规模多智能体系统如大型电力网络、城市交通信号控制中是非常重要的。”马成栋解释,例如在大型电网系统中,节点之间信息交换和传输过于频繁难免会产生干扰,某些节点一旦产生故障也会大幅影响其他节点的性能。“去中心化”可以降低这一风险,提高电网系统的稳定性和安全性。
(受访者供图)