Notice
Recent Posts
Recent Comments
Link
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Tags
more
Archives
Today
Total
관리 메뉴

일반인의 로봇공학

강화 학습을 통해 인간의 움직임을 "발명"하는 로봇 본문

로봇공학에 대하여

강화 학습을 통해 인간의 움직임을 "발명"하는 로봇

truekind 2020. 9. 23. 10:44
반응형

강화 학습을 통해 인간의 움직임을 “발명”하는 로봇

로봇 손은 인공 지능 향상 학습을 사용하여 사람의 손을 움직이는 방법을 처음부터 배웠고 손가락 끝을 자유롭게 움직이는 방법을 배웠습니다. 이는 엘론 머스크가 함께 일하는 비영리 단체 인 OpenAI의 이니셔티브이며 100 년에 해당하는 가상 시뮬레이션을 통해 실현되었습니다. 로봇은 어마어마하게 빠른 시간에 엄청난 경험을 얻어낼 수 있었습니다. 엘론 머스크는 인공 지능 (AI)에 대해 몇 가지 우려를 가지고 있습니다. 그는 2017 년에 "AI는 인간 문명을 뒤 흔드는 근본적인 위험을 안고 있지만 또한 완벽히 이해되지 않았다고 생각합니다."라고 말했습니다. 그래서 머스크는 비영리 연구 기관인 OpenAI를 시작하는데 도움을 더하기로 결정했습니다. 이런 식으로 우리는 문명을 버튼처럼 부수는 기계가 아닌 안전한 범용 인공 지능(AGI) 개발을 위한 길을 닦고 있습니다. 그러나 Mask가 보여준 보편적인 관심은 AI가 가진 다른 더 현실적인 문제에 주의를 희미하게 할 우려가 있습니다. 그럼에도 불구하고 OpenAI는 발견하는 모든 것을 파괴하는 로봇보다 훨씬 더 나은 방식으로 인간 사회에 참여할 로봇을 개발하는 데 큰 발걸음을 내디뎠습니다. OpenAI 연구자들은 시뮬레이션된 로봇 손이 시행착오를 통해 나무 큐브를 움직이고 거기서 얻은 지식을 실제 로봇 손으로 지속적으로 전송하는 시스템을 개발했습니다. 놀랍게도 이 시스템은 인간이 일반적으로 물건을 잡는 데 사용하는 특징적인 손동작을 "발명"했습니다. 이것은 우리 인간을 파괴하려는 시도와는 거리가 먼 것이 분명합니다. 연구원들은 강화 학습이라는 기술을 사용했습니다. 시뮬레이션에서 로봇 손은 신경망을 사용하여 핀치를 잡고 탬퍼링 하는 방법을 자유롭게 시도할 수 있습니다. OpenAI 엔지니어 인 Matthias Prapert는 "우리는 무작위로 움직이고 끝없이 비참한 실수를 합니다."라고 말합니다. "그런 다음 우리가 하는 일은 로봇 손이 핀치를 돌려서 달성하고자 하는 목표에 가까워지면 보상을 하는 것입니다.” 여기서 목표는 양쪽에 상단 알파벳이 있는 나무 큐브를 회전시켜 지정된 면 중 일부를 앞으로 가져오는 것입니다. 또한 나무 큐브를 떨어뜨리지 않고 목표를 달성해야 합니다. 시스템이 무작위로 움직이는 동안 나무 큐브가 올바른 위치에 접근하면 로봇의 손이 보상으로 계속 움직 이도록 지시합니다. 반면에 잘못하면 벌점을 받고 같은 방식으로 움직일 수 없게 됩니다. (점수 시스템이라고 생각해보면 쉽습니다. 떨어 뜨리는 등 큰 실수를 하면 마이너스 20 점을 받습니다). "오랜 시간에 걸친 많은 경험을 통해 저는 점점 더 나무 큐브 회전의 달인이 되고 있습니다."라고 Prapert는 말합니다. 이 새로운 시스템의 요점은 연구자들이 디지털 공간에 다양한 세계를 구축했다는 것입니다. “이 덕분에 각 시뮬레이션에서 다른 조건을 무작위로 설정할 수 있습니다.”라고 Prapert는 말합니다. 예를 들어, 나무 큐브의 질량 및 중력 설정이 약간 변경될 수 있습니다. 그렇게 하면 이전처럼 손가락을 빨리 움직이지 못할 수 있습니다. 로봇은 마치 시뮬레이션된 다중 우주에 살고 있는 것처럼 약간 씩 다른 여러 "현실"에서 훈련됩니다. 로봇 손은 현실 세계로 들어가기 위한 준비 단계가 있습니다. 훈련 기간 동안 시뮬레이션 세계의 많은 부분을 경험함으로써 이 학습 시스템이 실제 물리적 세계도 무작위로 주어진 세계 중 하나로 보여주고 있음을 증명할 수 있었습니다. 시뮬레이션 세계는 거대한 변수와 매우 혼란스러운 로봇을 생성할 수도 있습니다. 예를 들어 보겠습니다. 일반적으로 연구자가 로봇 손을 실험실에 배치할 때 손바닥이 위를 향하고 완전히 수평이 되어야 합니다. 이 경우 나무 큐브가 안정되어 손바닥에서 미끄러지지 않습니다 (이때 로봇의 손 주위에 배치된 카메라가 LED를 따라가고 각 손가락 끝에 있는 나무 큐브를 따라갑니다). 만약 손바닥을 약간만 기울여도 중력으로 인해 쏟아질 수 있습니다. 그러나 이 시스템은 훈련 중 "무작위 중력 조정"덕분에 이러한 조건을 수정할 수 있습니다. 이것은 중력의 힘뿐만 아니라 중력이 작용하는 방향도 바꿀 수 있습니다. OpenAI 엔지니어 Lillian Wen은 "임의 중력 설정과 같은 다양한 임의 설정에서 훈련된 우리 모델은 이러한 환경에 아주 잘 적응할 수 있습니다."라고 말합니다. "무작위 중력 설정으로 훈련된 적이 없는 다른 모델에서는 손의 각도를 바꾸고 나무 큐브를 여러 번 떨어뜨렸습니다." 실제 세계에서는 중력이 손바닥 표면에 수직으로 적용되지 않기 때문에 모델이 기울어지고 혼란을 야기합니다. 그러나 무작위 중력 설정에서 훈련된 모델은 이 이상현상을 수정할 수 있는 방법을 찾을 수 있습니다. 핀치를 잡을 수 있는 5 개의 손가락으로 각각 24 도의 범위가 주어지면이 로봇 손은 매우 능숙하게 움직일 수 있습니다. 이 모델은 처음부터 손가락을 움직이는 방법을 배우기 위한 시뮬레이션 테스트입니다. 게다가 그는 인간을 잡는 자연스러운 방법을 "발명"했으며 심지어 우리가 손가락으로 하는 것과 똑같이 꼬집는 법을 배웠습니다. 흥미로운 점은 이 모델이 "손가락 피벗"이라는 움직임에 접근할 때 비정상적으로 작동한다는 것입니다. 대부분의 인간에서는 엄지와 중지 또는 약물의 엄지와 집게손가락을 꼬집고 집게손가락으로 돌려 회전시킵니다. 그러나 이 로봇 손은 엄지와 새끼손가락으로 꼬집는 방법을 사용했습니다. "이 동작의 이유는 구조 때문이라고 생각합니다. 이 모델의 작은 손가락은 움직일 공간이 많기 때문에 다른 손가락보다 미세하게 움직일 수 있습니다."라고 Prapert는 설명합니다. 요컨대, 이 모델의 새끼손가락은 특히 넓은 범위의 움직임을 가지고 있습니다. 사물을 관리하는 방법을 배우는 로봇에게는 이것이 더 효율적인 방법이었을 것입니다. 인공 지능은 인간이 하나씩 정확하게 프로그래밍하면 엄청난 시간이 걸리는 복잡한 작업을 빠르게 해결할 수 있습니다. 인간이 처리하게 한다면 많은 전문가가 필요한 문제를 해결할 AI가 만들어질 것입니다. 어떤 면에서 이것이 강화 학습의 본질입니다. 연구자들이 시뮬레이션에서 로봇을 훈련시키고 이 지식을 실제 로봇에 전달하기 위해 연구한 것은 이번이 처음이 아닙니다. 문제는 시뮬레이션된 세계와 실제 세계 사이에 큰 단절이 있다는 것입니다. 이 크고 복잡한 우주는 불확실성이 너무 많습니다. "시뮬레이터가 만들어졌을 때 제작자는 시뮬레이터를 최대한 정밀하게 만들고 그 정밀도에 의존하여 작업을 완료했습니다."라고 Abil은 말합니다. 다르게 말하자면 정밀도가 충분하지 않으면 시스템이 제대로 작동하지 않을 것이라는 것을 알 수 있습니다. 물론 이러한 강화 학습을 실생활에서 수행함으로써 시뮬레이션을 생략할 수 있습니다. 하지만이 모델은 처음부터 디지털 세계에서 훈련을 받았기 때문에 엄청난 경험을 축적할 수 있었습니다. 이 경험은 연구원들이 통합 한 병렬 "실제 세계"를 고려하여 슈퍼컴퓨터에서 100 년 동안 진행된 고속 훈련에 해당합니다. 로봇이 점점 실제 사회에서 역할을 하게 됨에 따라 이러한 학습 방법은 더욱 중요해질 것입니다. 물론 여기서 "역할"은 인류의 소멸을 포함하지 않습니다. OpenAI는 반드시 그것을 증명할 것입니다.

반응형
Comments