微软联合亚利桑那州立大学推出名为“Magentic Marketplace”(磁性市场)的仿真环境,用于测试AI代理在复杂场景下的行为表现。该平台模拟客户与商家代理间的交互,研究发现当前主流模型如GPT-4o、GPT-5和Gemini-2.5-Flash存在易被操控、信息过载及协作能力不足等问题。实验显示,商家代理可通过策略诱导客户决策,且当选项过多时,客户代理决策效率显著下降。研究还指出,多代理协作中角色分工模糊,需依赖外部指令提升表现。项目已开源,旨在推动对AI代理自主性与可靠性的深入探索。