The pursuit of energy-efficient and adaptive artificial intelligence (AI) has positioned neuromorphic computing as a promising alternative to conventional computing. However, achieving learning on these platforms requires techniques that prioritize local information while enabling effective credit assignment. Here, we propose noise-based reward-modulated learning (NRL), a novel synaptic plasticity rule that mathematically unifies reinforcement learning and gradient-based optimization with biologically-inspired local updates. NRL addresses the computational bottleneck of exact gradients by approximating them through stochastic neural activity, transforming the inherent noise of biological and neuromorphic substrates into a functional resource. Drawing inspiration from biological learning, our method uses reward prediction errors as its optimization target to generate increasingly advantageous behavior, and eligibility traces to facilitate retrospective credit assignment. Experimental validation on reinforcement tasks, featuring immediate and delayed rewards, shows that NRL achieves performance comparable to baselines optimized using backpropagation, although with slower convergence, while showing significantly superior performance and scalability in multi-layer networks compared to reward-modulated Hebbian learning (RMHL), the most prominent similar approach. While tested on simple architectures, the results highlight the potential of noise-driven, brain-inspired learning for low-power adaptive systems, particularly in computing substrates with locality constraints. NRL offers a theoretically grounded paradigm well-suited for the event-driven characteristics of next-generation neuromorphic AI.


翻译:对高能效和自适应人工智能(AI)的追求使得神经形态计算成为传统计算的有前景的替代方案。然而,在这些平台上实现学习需要优先利用局部信息并实现有效信用分配的技术。本文提出了一种基于噪声的奖励调制学习(NRL),这是一种新颖的突触可塑性规则,它在数学上统一了强化学习和基于梯度的优化,并采用受生物启发的局部更新。NRL通过随机神经活动近似精确梯度,从而解决了精确梯度的计算瓶颈,将生物和神经形态基底固有的噪声转化为功能性资源。受生物学习的启发,我们的方法使用奖励预测误差作为优化目标以生成日益有利的行为,并利用资格迹促进回顾性信用分配。在包含即时和延迟奖励的强化任务上的实验验证表明,NRL实现了与使用反向传播优化的基线相当的性能,尽管收敛速度较慢,同时在多层网络中与最突出的类似方法——奖励调制赫布学习(RMHL)相比,表现出显著优越的性能和可扩展性。虽然在简单架构上进行了测试,但结果凸显了噪声驱动、类脑学习在低功耗自适应系统中的潜力,特别是在具有局部性约束的计算基底中。NRL提供了一个理论基础坚实的范式,非常适合下一代神经形态AI的事件驱动特性。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【AAAI2022】基于变分信息瓶颈的图结构学习
专知会员服务
20+阅读 · 2021年12月18日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员