SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

SimpleVLA-RL: Масштабирование обучения VLA с помощью обучения с подкреплением В данной статье представлена SimpleVLA-RL, новая структура обучения с подкреплением, разработанная для улучшения обучения моделей Vision-Language-Action (VLA). Структура решает проблемы, связанные с нехваткой данных и ограниченной обобщающей способностью существующих моделей VLA, обученных с помощью контролируемой доводки (SFT). SimpleVLA-RL построена на основе veRL, включая выборку траекторий, специфичную для VLA, масштабируемую параллелизацию, рендеринг с несколькими средами и оптимизированное вычисление потерь. Эксперименты показывают, что SimpleVLA-RL достигает современного уровня производительности на LIBERO и превосходит существующие методы на эталонных тестах RoboTwin. Структура уменьшает зависимость от крупномасштабных данных и расширяет возможности обобщения. Кроме того, исследование выявляет новое явление, называемое «pushcut», когда политика RL обнаруживает непредвиденные закономерности действий. Результаты показывают, что RL может значительно улучшить модели VLA, позволяя им изучать более надежные и обобщаемые стратегии для роботизированных манипуляций. #обучениесподкреплением #робототехника #VLA #ИИ #машинноеобучение #обобщение #нехваткаданных документ - подписаться - отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

1 view

1101

299