奖励函数论文 - 专知

会员服务 ·

奖励函数

Reinforcement Learning from Diverse Human Preferences

Arxiv

0+阅读 · 5月8日

In-context Learning for Automated Driving Scenarios

Arxiv

0+阅读 · 5月7日

RLStop: A Reinforcement Learning Stopping Method for TAR

Arxiv

0+阅读 · 5月3日

Evaluating and Optimizing Educational Content with Large Language Model Judgments

Arxiv

0+阅读 · 5月6日

Geometric Fabrics: a Safe Guiding Medium for Policy Learning

Arxiv

0+阅读 · 5月3日

FLAME: Factuality-Aware Alignment for Large Language Models

Arxiv

0+阅读 · 5月2日

Continuously evolving rewards in an open-ended environment

Arxiv

0+阅读 · 5月2日

Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning

Arxiv

0+阅读 · 4月30日

Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation

Arxiv

0+阅读 · 5月2日

Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking

Arxiv

0+阅读 · 4月30日

A Survey of Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 4月30日

Contrastive Preference Learning: Learning from Human Feedback without RL

Arxiv

0+阅读 · 4月30日

SIR-RL: Reinforcement Learning for Optimized Policy Control during Epidemiological Outbreaks in Emerging Market and Developing Economies

Arxiv

0+阅读 · 4月30日

Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

Arxiv

0+阅读 · 4月30日

Rethinking the Role of Proxy Rewards in Language Model Alignment

Arxiv

0+阅读 · 4月29日

参考链接

微信扫码咨询专知VIP会员