SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
SimpleVLA-RL: Масштабирование обучения VLA с помощью обучения с подкреплением
В данной статье представлена SimpleVLA-RL, новая структура обучения с подкреплением, разработанная для улучшения обучения моделей Vision-Language-Action (VLA). Структура решает проблемы, связанные с нехваткой данных и ограниченной обобщающей способностью существующих моделей VLA, обученных с помощью контролируемой доводки (SFT). SimpleVLA-RL построена на основе veRL, включая выборку траекторий, специфичную для VLA, масштабируемую параллелизацию, рендеринг с несколькими средами и оптимизированное вычисление потерь. Эксперименты показывают, что SimpleVLA-RL достигает современного уровня производительности на LIBERO и превосходит существующие методы на эталонных тестах RoboTwin. Структура уменьшает зависимость от крупномасштабных данных и расширяет возможности обобщения. Кроме того, исследование выявляет новое явление, называемое «pushcut», когда политика RL обнаруживает непредвиденные закономерности действий. Результаты показывают, что RL может значительно улучшить модели VLA, позволяя им изучать более надежные и обобщаемые стратегии для роботизированных манипуляций.
#обучениесподкреплением #робототехника #VLA #ИИ #машинноеобучение #обобщение #нехваткаданных
документ -
подписаться -
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
1 view
1101
299
3 weeks ago 00:19:18 1
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
10 months ago 00:30:15 449
CV Week 2024 l Лекция 6 RL tuning for diffusion models I ШАД