Notice
Recent Posts
Recent Comments
Link
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

일반인의 로봇공학

인공 지능을 더 똑똑하게 만드는 '가짜 데이터' 본문

로봇공학에 대하여

인공 지능을 더 똑똑하게 만드는 '가짜 데이터'

truekind 2020. 10. 7. 17:48
반응형

인공 지능을 더 똑똑하게 만드는 '가짜 데이터'

인공 지능 (AI)을 훈련하는 데 필요한 많은 양의 데이터. 자금이 제한된 스타트 업의 경우 데이터 부족은 프로젝트 진행에 심각한 장애물입니다. 한편, 일부 기업은 합성된 이미지 데이터를 훈련에 사용하기 시작했습니다. 스타트 업뿐 아니라 대기업과 로봇 계의 주목을 받고 있는 '가짜 데이터'를 알아보겠습니다. 2017 년 봄, 베를린에 기반을 둔 스타트 업 Spil.ly는 문제에 직면했습니다. 당시 회사는 특정 증강 현실 (AR) 애플리케이션을 개발하고 있었습니다. 스냅챗 필터의 풀 버전으로, 휴대폰 카메라로 친구의 전신사진을 찍고 "모피"와 "불꽃"과 같은 효과를 적용할 수 있습니다. 앱이 작동하려면 동영상에서 인체를 자세하게 추적하도록 기계 학습 알고리즘을 훈련해야 합니다. 그러나 Spil.ly는 이 교육에 필요한 수만 또는 수십만 개의 태그 데이터에 지출할 돈이 없었습니다. 회사의 CTO 인 Max Schneider는 그렇게 많은 양의 데이터에 지출할 돈이 없기 때문에 AI에 시작하기가 어렵다고 판단했습니다. 그의 해결책은 데이터를 재구성하는 것이었습니다. Spil.ly 엔지니어는 교육용 태그 이미지를 만들기 시작했습니다. 그들은 영화와 비디오 게임용 그래픽을 만드는 데 사용한 것과 동일한 기술을 사용했습니다. Spil.ly는 회사에서 "시뮬런트"라고 부르는 디지털 인간을 실제 풍경 사진에 붙여 넣어 1 년에 약 천만 개의 이미지를 만들었습니다. 이상하게 들리지만 작동합니다. Spil.ly의 엔지니어 인 Adam Schuster는 “합성 데이터만으로 학습 한 모델은 실제 데이터로 학습 한 모델과 거의 동일합니다. 앱 데모에서 가상 원숭이가 iPhone 카메라를 통해 테이블 위에 나타나 옆에 있는 실제 사람의 옷에 그림을 그렸습니다. Fake it ‘til you make it. 이는 큰 경쟁자가 밀집한 시장에서 살아 남기 위해 노력하는 스타트 업의 오랜 모토입니다. 스스로를 혈액 검사의 "혁신자"라고 부르는 Seranos와 같은 회사는 이러한 태도 때문에 문제가 있습니다. 그러나 머신 러닝 교육 데이터 생성은 자금 부족과 교육 데이터 부족으로 어려움을 겪고 있는 스타트 업이 프로젝트를 되살리기 위한 합법적인 수단이 되고 있습니다. 데이터가 새로운 "원유"라면 머신 러닝 교육 데이터는 정원에서 만든 "바이오 디젤 연료"입니다. 이러한 "가짜 데이터 이동"은 삶과 비즈니스의 새로운 영역에서 AI 사용을 가속화할 수 있습니다. 기계 학습 알고리즘은 인간 지능보다 유연성이 떨어집니다. 새로운 문제에 알고리즘을 적용하려면 상황에 맞는 새로운 훈련 데이터가 필요합니다. 예를 들어, 에스토니아의 Talin을 기반으로 하는 스타트 업인 Neuromation은 가짜 돼지가 등장하는 이미지를 대량 생산합니다. 이것은 카메라로 농장 동물의 성장을 추적하는 데 사용됩니다. Apple, Google 및 Microsoft는 합성 교육 데이터의 편리함을 주장하는 연구도 발표했습니다. LDV Capital의 벤처 캐피털 파트너 인 Evan Nisselson에 따르면 신생 기업은 합성 데이터가 거대한 AI 기업과의 싸움에서 무기가 되기를 바라고 있습니다. 그는 재능 있는 팀이 종종 데이터 부족으로 인해 벽에 부딪히게 된다고 말합니다. Nisselson은 "합성 데이터를 생성하고이를 모델 교육에 사용할 수 있다면 스타트 업은 거대 기업과 동일한 기반에 있을 수 있습니다."라고 말합니다. Spil.ly의 이야기는 그 주장에 무게를 더합니다. 2018 년 2 월 페이스 북은 사람들이 비디오에서 특수 효과를 얻을 수 있는 자체 기계 학습 소프트웨어를 발표했습니다. "Densepose"라는 소프트웨어는 50,000 개의 이미지로 훈련되었습니다. 영상은 수동으로 5 백만 주석을 달았습니다. 며칠 후 Spil.ly는 Facebook과 유사한 데이터를 합성하기 시작했습니다. 회사는 Densepose의 아이디어를 제품에 통합했습니다. Neuromation과 같은 회사는 가짜 데이터 브로커가 되고 싶어 합니다. Neuromation의 프로젝트 중 하나는 OSA HP라는 회사의 식료품 선반 이미지를 만드는 것입니다. OSA는 프랑스 슈퍼마켓 체인 인 Ocean과 같은 고객을 보유한 소매 분석 회사입니다. Neuromation 데이터는 이미지를 사용하여 선반 재고를 관리하는 알고리즘을 훈련하는 데 사용됩니다. OSA의 CEO 인 Alex Isaev는 "슈퍼마켓에서 판매되는 제품 카테고리가 너무 많고 판매 환경이 다르기 때문에 실제 이미지를 수집하고 라벨링 하는 것은 비현실적입니다."라고 말했습니다. DataGen은 이스라엘의 스타트 업입니다. 공동 창립자 Ophir Chacon에 따르면, 이 회사는 최대 수백만 달러에 맞춤형 (약간 무서운) 손 시뮬레이션 비디오를 제작합니다. 회사에서 제작 한 비디오의 사실성은 머신 러닝 커뮤니티에서 현재 사용하고 있는 GAN (Generative Adversarial Networks) 기술을 기반으로 합니다. 이 기술로 사실적인 이미지를 만들 수 있습니다. 위에서 언급 한 가짜 Neuromation 돼지 사진은 인간의 눈에는 실제처럼 보이지 않습니다. “합성된 데이터 세트를 처음 보았을 때 사람들의 반응은 '최악이다. 그런 식으로 컴퓨터를 어떻게 훈련하겠는가?’라는 의문입니다”라고 Spil.ly의 Schuster가 말합니다. "하지만 가장 중요한 것은 그림을 보는 컴퓨터가 이해하는 것입니다." 컴퓨터가 옳은 것을 이해하는 데 시간이 걸릴 수 있습니다. 원래 Spil.ly는 알몸을 합성했습니다. 결과적으로 소프트웨어는 피부를 찾는 법을 배웠습니다. 현재 Spil.ly는 다양한 체형, 피부색, 머리카락 및 옷을 가진 인물을 합성합니다. Spil.ly와 같은 회사는 종종 수백만 개의 합성 데이터와 일부 실제 이미지로 시스템을 교육합니다. 세계 최고의 자금을 지원하고 데이터가 풍부한 AI 개발 팀조차 합성 데이터를 사용하기 시작했습니다. Google 연구원들은 인공적으로 만들어진 세상에서 로봇을 훈련시킵니다. 2017 년에 Microsoft는 레반 틱 아랍어 방언의 번역 정확도를 개선하기 위해 2 백만 개의 합성 문장을 사용한 결과를 보고하는 보고서를 발표했습니다. AI에 대한 아이디어를 비밀로하고 싶은 애플도 훈련 데이터 합성에 관심이 있습니다. 2016 년에는 사실적인 눈 이미지를 합성하여 순간 인식 소프트웨어의 정확도를 높이기 위한 연구 논문을 발표했습니다. 약 1 년 후, 회사는 사용자의 시선과 얼굴을 인증하여 잠금 해제되는 iPhone X를 발표했습니다. 연구원 중 일부는 회사의 두 연구에 모두 관여합니다. 하지만 회사는 시선 감지 소프트웨어에 대한 연구가 잠금 해제에 적용되었는지 여부에 대해서는 언급하지 않았습니다. 로봇 공학 분야에서 훈련을 위한 합성 데이터는 실제보다 더 큰 규모의 실험을 가능하게 합니다. Alphabet의 자회사 인 Waymo는 자율 주행 차량을 사용하여 수백만 킬로미터의 공공 도로 테스트를 수행했다고 주장합니다. 그러나 제어 소프트웨어는 시뮬레이션된 가상 도로에서 수십억 마일을 주행합니다. 이중 디지털 기계를 만들면 로봇은 공장과 가정에서 업무를 더 잘 처리할 수 있습니다. Earon Musk가 공동 설립 한 Open AI 연구원은 시뮬레이션된 인공 세계에서 훈련함으로써 실제 로봇과 합리적으로 잘 작동하는 소프트웨어를 개발할 수 있음을 발견했습니다. 비결은 임의의 색상과 질감을 인공 세계에 혼합하여 가장 중요한 물리적 문제에 소프트웨어를 집중시키는 것입니다. 그런 다음 수백만 개의 복잡한 모양을 만들고 소프트웨어 가이드를 캡처하도록 합니다. 개방형 AI 연구원 Josh Tobin은 "2 년 전 인공 데이터를 사용할 수 없다는 생각이 널리 퍼져있었습니다."라고 말합니다. "하지만 작년에 그런 사고방식이 바뀌었던 것 같습니다." 이러한 성공에도 불구하고 가짜 데이터는 전능하지 않습니다. DataGen의 Chacon은 많은 복잡한 문제를 현실적으로 시뮬레이션할 만큼 충분히 이해하지 못하고 있다고 설명합니다. 또한 실제 세계와 동떨어진 시스템을 만들 위험이 너무 높을 수 있습니다. 아이오와 대학의 Michael Abramov는 망막 이미지를 생성하는 방법을 개발했습니다. 그는 대학원생의 프로젝트에서 이 합성 데이터를 사용한다고 말합니다. 그러나 스타트 업 IDx를 위한 망막 검증 소프트웨어를 개발할 때 그는 실제 이미지만 사용한다고 말합니다 (그의 소프트웨어는 2018 년 4 월 미국 식품의 약국 인증을 받았습니다). Abramov는 가능한 한 전통적이기를 원하는 것 같습니다.

반응형
Comments