인텔리콘연구소, 국내 최초 법률특화 언어모델 ‘코알라’ 개발
상태바
인텔리콘연구소, 국내 최초 법률특화 언어모델 ‘코알라’ 개발
  • 이성진 기자
  • 승인 2024.02.26 18:16
  • 댓글 0
이 기사를 공유합니다

[법률저널=이성진 기자] 인텔리콘연구소(대표 임영익)는 국내 최초로 한국 법률에 특화된 언어모델(sLLM)인 ‘코알라(KOALLA : Korean Adaptive Legal Language AI)’ 개발에 성공했다고 26일 밝혔다.

이번에 개발한 ‘코알라1.0’은 리걸테크의 다양한 응용 서비스에 적용이 되며, 기업이나 로펌의 대용량 문서를 기반으로 하는 생성AI(RAG) 시스템에도 장착이 된다.

따라서 기업의 다양한 환경과 요구에 부응하는 온-프레미스(On-Premise) 또는 설치형(Appliance) 방식의 법률특화 생성AI 도입이 가능해진다는 설명이다.

인텔리콘에 따르면, ‘코알라’는 메타의 Llama-2(7B,13B)를 파인튜닝(Fine-Tuning)해서 개발됐다.

코알라의 성능을 높이기 위해 널리 알려진 DPO(Direct Preference Optimization) 같은 기법 외에도 학습 데이터 구성 자체를 최적화하는 데이터 재규격화(Renormalization) 기술을 개발해 추가 학습에 사용했다.
 

국내 최초로 탄생한 법률특화 거대언어모델, 코알라(KOALLA)

먼저 수백만 개의 법률, 판례, 상담자료, 주석자료 등을 기반으로 학습 데이터 규격화 작업을 한 후, 성능향상에 도움이 되는 데이터만을 선별해 재규격화했다.

GPT 같은 거대언어모델(LLM)은 거짓 답변을 만들어 내는 환각현상(Hallucination) 때문에 법률, 의료 등에 직접 사용하면 위험하므로 최근에는 경량화 거대언어모델(sLLM)을 기반으로 수천 개에서 수만 개의 데이터만으로 파인 튜닝을 해 독자모델을 완성하는 방향으로 생성AI 생태계가 조성되고 있는 상황.

특히 업계는 자신만의 내부 데이터를 기반으로 정교한 답을 생성하는 RAG방식이나 특화된 언어모델을 선호한다는 것이다.

미국의 거대언어모델 API를 이용하는 대신에 한국 법률에 특화된 거대언어모델을 직접 적용하는 것은 문서 보안 문제 등을 해결하면서 국내 리걸테크 산업에 큰 변화를 줄 것이라는 게 연구소의 평가다.

임영익 대표는 “개발과정에서 모델성능의 본질은 모델 자체가 아니라 데이터에 있다는 결론을 내렸고 아무리 모델을 잘 선택해서 다양한 기법을 동원한다고 해도 미국의 GPT-4 성능에 근접하는 것은 무리이며 가성비도 좋지 않다”며 “인텔리콘은 모델뿐만 아니라 학습 데이터 구조 자체에 좀 더 집중하는 연구를 하면서 데이터 재규격화 기법을 고안했고, 소량의 데이터로 법률 특유의 성능을 극대화할 수 있다는 것을 확인했다”고 결과를 전했다.

임 대표는 “앞으로 다른 모델도 활용해 코알라2.0 개발 및 고도화를 진행하겠다”며 “다양한 코알라를 만든 후 경량모델 블랜딩(Blending) 기술을 적용해 거대언어모델에 근접시키는 ‘앙상블 브레인’을 개발할 계획”이라고 향후 계획을 덧붙였다.

참고로 데이터 재규격화 기법은 인텔리콘이 자체로 고안한 원천 기술로 방대한 학습 데이터에서 성능향상에 불필요한 데이터를 제거하는 데이터 디노이징(Data-denoizing) 기법과 실제 사용자의 행동 패턴 데이터를 융합해 리셔플링(Re-shuffling)하는 기술을 포함한다.

사용자 데이터는 살아 움직이는 데이터(Dynamic Data)로 인텔리콘이 지난해 5월에 개발한 법률GPT(LawGPT)와 도큐브레인(DocuBrain)을 통해 얻어진 자료들이다.

xxx

신속하고 정확한 정보전달에 최선을 다하겠습니다.
이 기사를 후원하시겠습니까? 법률저널과 기자에게 큰 힘이 됩니다.

“기사 후원은 무통장 입금으로도 가능합니다”
농협 / 355-0064-0023-33 / (주)법률저널
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
공고&채용속보
이슈포토