버클리는 캘리포니아 대학교의 BAIR 연구소의 연구팀 인 HIL-SERL이라는 강화 학습 프레임 워크를 개발하여 로봇이 실제 세계에서 복잡한 운영 기술을 배울 수있는 능력을 크게 향상 시켰습니다. 그것은 휴먼 데모, 수정 및 효율적인 강화 학습 알고리즘을 영리하게 결합하여 로봇이 짧은 시간 안에 다양한 정밀 작업을 마스터 할 수있게하여 이전 느린 학습 및 오류가 발생한 로봇의 병목 현상을 뚫을 수 있습니다. 이 획기적인 기술은 로봇이 배우고 적용하는 방식을 혁신하여 산업 자동화를위한 탄탄한 토대와 일상 생활에서 로봇의 대중화를 마련 할 것으로 예상됩니다.
최근 캘리포니아 대학교 BAIR 연구소의 Sergey Levine 연구팀은 로봇이 실제 세계에서 복잡한 운영 기술을 학습하는 로봇 문제를 해결하기 위해 Hil-Serl이라는 강화 학습 프레임 워크를 제안했습니다.
이 새로운 기술은 인간 데모 및 수정을 효율적인 강화 학습 알고리즘과 결합하여 로봇이 단 1 ~ 2.5 시간 만에 동적 운영, 정밀 어셈블리 및 2 암 협력과 같은 다양한 정교하고 손재주의 운영 작업을 마스터 할 수 있도록합니다.
과거에는 로봇이 장난 꾸러기 아이에게 숙제를하도록 가르치는 것과 마찬가지로 로봇이 새로운 기술을 배우게하는 것은 매우 어려웠습니다. 더 번거로운 것은 실제 세계의 다양한 상황이 복잡하고 변하기 쉬운 로봇은 종종 천천히 배우고 신속하게 잊어 버리며 조심하지 않으면 실패합니다.

Hil-Serl 프레임 워크는 로봇에 대한 "교사"를 요구하는 것과 같습니다. 즉, 인간의 시연 및 수정 사항이있을뿐만 아니라 로봇이 다양한 기술을 신속하게 마스터 할 수 있도록 효율적인 학습 알고리즘을 갖추고 있습니다.
몇 번만 시연하면되며 로봇은 빌딩 블록을 사용하고 팬케이크를 뒤집고 가구 조립 및 회로 보드 설치에 이르기까지 다양한 작업을 완료 할 수 있습니다.
로봇이 더 빠르고 더 잘 배우게하기 위해 Hil-Serl은 인간 컴퓨터 상호 작용을위한 보정 메커니즘을 소개합니다. 간단히 말해서 로봇이 실수를 할 때 인간 운영자는 시간을 맞추기 위해 개입 할 수 있으며 이러한 수정 정보를 로봇에 피드백 할 수 있습니다. 이런 식으로 로봇은 실수로부터 끊임없이 배우고, 실수를 반복적으로하지 않으며, 결국 진정한 주인이 될 수 있습니다.

일련의 실험 후에, hil-serl의 효과는 놀랍습니다. 다양한 작업에서 로봇은 단 1 ~ 2.5 시간 만에 거의 100%의 성공률을 달성했으며 작동 속도는 이전보다 거의 2 배 빠릅니다.
더 중요한 것은 HIL-SERL이 실제 세계에서 강화 학습을 사용하여 이미지 입력 기반 듀얼 암 조정을 구현하는 최초의 시스템입니다 동기화 벨트에는 고도로 조정 된 작업이 필요합니다.
Hil-Serl의 출현은 로봇 학습의 큰 잠재력을 볼 수있을뿐만 아니라 미래의 산업 응용 프로그램 및 연구의 방향을 지적합니다. 미래에, 우리 각자는 집에 로봇 "견습생"을 가질 것입니다.
물론 Hil-Serl에는 몇 가지 제한 사항이 있습니다. 예를 들어, 장기 계획이 필요한 일부 작업의 경우 압도적 인 것처럼 보일 수 있습니다. 또한 현재 HIL-SERL은 주로 실험실 환경에서 테스트되었으며 실제 시나리오에서는 대규모로 검증되지 않았습니다. 그러나 기술의 발전으로 이러한 문제는 점차 해결 될 것이라고 생각합니다.
종이 주소 : https://hil-serl.github.io/static/hil-serl-paper.pdf
프로젝트 주소 : https://hil-serl.github.io/
요약하면, HIL-SERL 프레임 워크는 로봇 학습 분야에 상당한 진전을 가져 왔으며, 효율적인 학습 능력과 인적 컴퓨터 상호 작용 메커니즘을 통해 실제 응용 분야에서 큰 잠재력을 보여줄 수있었습니다. 여전히 몇 가지 한계가 있지만 미래의 개발 전망은 기대할 가치가 있습니다.