• Innovation through disruptive and scalable technology .
  • Cutting-edge AI research .
  • Accelerating innovations in research and service .
  • We strive for (and achieve) excellence! .
  • “SotA” (State-of-the-Art) .
  • Visual demo of research and service innovation
  • Human. Machine. Experience Together .

2019 International Conference on Computer Vision (ICCV) 참석

2019.11.11

SK텔레콤 AI 센터는 지난 10월 27일부터 11월 2일까지 한국 서울에서 열린 컴퓨터 비전 분야의 세계적인 학회인 ICCV에 참석하였습니다. AI 센터 T-Brain의 연구자들은 최근 연구 결과에 대해 교육을 진행하는 튜토리얼, 개별 주제에 대해서 소규모로 진행되는 워크숍, 선정된 논문의 구두 및 포스터 발표로 진행되는 메인 컨퍼런스에 참석하였고, 학회에 참석한 다양한 연구자들과도 최근 연구 흐름과 관심사에 관해 이야기를 나누는 시간을 가졌습니다.

이번 ICCV에서는 VisDrone Challenge에 참가하여 최종 3위의 성적을 달성하고, 컴퓨터 비전과 자연 언어처리를 다루는 워크샵에서 invited talk를 진행하며, T-Brain의 컴퓨터 비전분야의 연구성과를 홍보하였는데요.

먼저, VisDrone Challenge는 Vision Meets Drones: A Challenge의 약자로서, 드론 촬영 영상을 기반으로 한 물체 인식 및 추적분야에서 세계적인 규모의 대회입니다. 이번 VisDrone Challenge에서는 드론 촬영 영상 내에서 지정된 카테고리의 물체를 인식하는 ‘Object Detection in Images’ 트랙에서 총 46팀 중 3위를 달성하였습니다. 이 트랙에서는, 드론에서 촬영된 영상으로부터 10개 카테고리(예: 사람, 승용차, 버스, 트럭, 오토바이, 자전거 등)에 속한 객체들의 위치와 카테고리를 맞추는 것을 목표로 합니다. 드론 촬영 영상의 경우 일반적인 영상과 달리 고해상도 영상으로부터 다양한 촬영 환경(예를 들어 거리, 밝기, 촬영 각도 등)을 고려하고, 카테고리별 물체의 개수가 차이나는 클래스 불균형 문제 또한 고려해야 합니다. 이러한 문제들을 효율적으로 해결하기 위해 T-Brain에서는 카테고리 내 물체의 비율을 균형 있게 조정하여 물체 검출 모델 학습에 도움이 되는 어려운 예제를 능동적으로 생성할 수 있는 패치단위 영상증강(patch-level augmentation) 기법을 제안하였습니다.

패치단위 영상증강 기법은, 데이터셋에 있는 모든 객체 패치를 추출하여 객체 풀을 구성하고, 해당 패치를 기존의 데이터셋의 이미지에 붙이는 방식으로 동작합니다. 패치를 붙일 때, 전체 데이터셋에서 수가 적었던 카테고리의 객체는 많이, 수가 많았던 카테고리의 객체들은 적게 붙이는 방식으로 클래스 불균형 문제를 해결합니다. 이외에도 객체 패치를 붙일 때 이미지 회전, 좌우 전환, 밝기 조정과 같은 이미지 증강 (image augmentation)을 수행한 후 이미지를 합성합니다. 패치 단위로 증강된 이미지들에, 기존에 학습된 네트워크를 통한 추론(inference)으로 얻어진 오인식 영역들까지 포함하여 다시 학습을 수행하면서, 물체들의 오분류율을 감소시키고 전체적인 물체 검출 성능을 향상시킬 수 있었습니다.

이어서, 세 번째로 열린 Closing the Loop Between Vision and Language 워크숍(https://sites.google.com/site/iccv19clvllsmdc/program)에서 T-Brain의 김진화 박사는 “Learning Representations of Vision and Language”라는 주제로 초청 발표를 하였습니다. 본 워크샵은 최근 컴퓨터 비전과 자연어 처리의 교차점에서 연구되고 있는 다양한 연구를 다루는 연구자 모임으로 최근 연구 동향과 지식을 초청 강연, 구두 발표, 포스터 발표, 패널 토의 등을 통해 공유하는 자리입니다. T-Brain에서는 시각 정보와 언어 정보에 대한 표상을 어떻게 학습하는지에 대한 주제로 멀티모달 딥 러닝, 텐서 연산, 쌍선형 모델, 주의 모델들에 대한 최근 연구를 소개하는 자리를 가졌습니다. 더불어, Video Turing Test: Toward Human-Level Video Story Understanding 워크숍(https://videoturingtest.github.io)에서 프로그램 위원으로도 활동하며 세계적인 비디오 이해 연구 커뮤니티에 기여했습니다.