• Innovation through disruptive and scalable technology .
  • Cutting-edge AI research .
  • Accelerating innovations in research and service .
  • We strive for (and achieve) excellence! .
  • “SotA” (State-of-the-Art) .
  • Visual demo of research and service innovation
  • Human. Machine. Experience Together .

한국어를 이해하는 언어 AI 모델 KoBERT

2019.10.10

구글에서 개발한 BERT(Bidirectional Encoder Representations for Transformers)는 자연언어를 양방향으로 사전학습하는 모델로서, 전이학습을 사용한 기술들의 기존 성능을 넘어섬으로써 새로운 언어이해 시대를 예고하고 있습니다.

T-Brain에서 개발한 KoBERT는 기존 BERT의 한국어 성능 한계를 극복하기 위해 개발되었습니다. 위키피디아나 뉴스 등에서 수집한 수백만 개의 한국어 문장으로 이루어진 대규모말뭉치(corpus)를 학습하였으며,한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(Tokenization) 기법을 적용하여 기존 대비 27%의 토큰만으로 2.6% 이상의 성능 향상을 이끌어 냈습니다.

대량의 데이터를 빠른시간에 학습하기 위해 링 리듀스(ring-reduce) 기반 분산 학습 기술을 사용하여, 십억 개 이상의 문장을 다수의 머신에서 빠르게 학습합니다. 더불어, PyTorch, TensorFlow, ONNX, MXNet을 포함한 다양한 딥러닝 API를 지원함으로써, 많은 분야에서 언어 이해 서비스 확산에 기여할 것으로 보입니다.



KoBERT는 SK 텔레콤 내부에서도 다양한 서비스에서 활용되고 있습니다. 먼저, 콜센터 상담사들의 업무 효율화를 위한 상담 챗봇에 해당 기술이 활용 되었습니다. 또한, 법무 및 특허 등록 업무 효율화를 위한 AI검색 서비스에 사용되었고, 응용된 기술은 “문서 단위의 컨텍스트가 반영된 벡터를 생성하는 방법 및 그 방법을 이용한 유사 문서 추천” 이라는 특허로 출원되었습니다. 나아가, SK 텔레콤 내부의 방대한 마케팅 자료에서 정확한 답변을 추출해 내는 기계독해 기술의 핵심 모델로도 사용되고 있습니다.

현재 KoBERT는Github(https://github.com/SKTBrain/KoBERT)에 공개되어 있으며, 많은 연구자 및 개발자들이 사용할 수 있도록 지속적으로 업데이트 할 예정입니다.