본문 바로가기
Eye On A.I.

기업들이 AI에게 오랜 공을 들여 글 읽는 법을 가르치려 하는 이유는 ?

by 브래드(Brad) 2020. 10. 29.

출처: canopyLAB

거대기업들 뿐만 아니라 많은 기업들이 인간의 언어를 이해하는 AI를 사용함으로써 디지털 비서와 같은 제품들이 기본적인 질문에 대답하게 합니다.

 

많은 전통산업의 기업들이 자연어처리(NLP:Natural Language Processing)로 불리는 AI 기술을 활용하여 고객 콜센터의 기본적인 대응이나 길고 복잡한 문서의 요약본을 만들어 내는 등, 더욱 강력한 소프트웨어를 개발해 내고 있습니다.

 

LexisNexis사의 예를 들면, NLP를 법률관련 검색 프로그램을 만드는데 활용하여 변호사, 언론인, 분석가들이 원하는 판례 문을 찾도록 돕고 있습니다. 필자가 신입 기자 시절 10년도 넘게 사용되던 불친절한 Boolean 검색 시스템은 마치 몇 광년 전의 일처럼 되어버렸습니다.

 

LexisNexis

 

 

AI와 더불어 LexisNexis의 검색 인터페이스가 더욱 인상적인 이유는 부분적으로 구글의 무료, 오픈소스 언어모델인 BERT를 기초로 사용했기 때문입니다. BERT 모델은 위키피디아 페이지와 같은 광대한 웹 데이터를 기반으로 훈련되었고, 소프트웨어가 단어들이 맥락마다 어떻게 다른 의미를 가지는지 잘 이해하게 도와줍니다.

 

그러나 LexisNexis는 법률분야에 특화된 정보를 다루기 때문에 모든 언어요구에 BERT를 사용하지는 못합니다. 종종 특수한 데이터들은 개방된 웹에서는 찾을 수 없어서 BERT 에게는 친숙하지 않을 수 있다고 합니다.

 

LexisNexis의 민첸(Min Chen) 아태평양 부사장 및 글로벌 검색팀 CTO는 BERT가 초기에 훌륭한 기초 모델을 제공하지만, 법률 용어를 이해하게 하기 위해서는 회사 자체로 법률 데이터를 이용한 추가적인 미세조정을 해야 했다고 말합니다.

 

이러한 미세조정은 많은 기업들, 특히 금융이나 헬스케어 분야 기업들에게는 일반적인 상황이 되어가고 있습니다.  모든 산업은 다른 맥락에서는 통하지 않는 그들만의 언어가 있기 때문입니다.

 

첸은 LexisNexis가 12개월에 걸쳐 BERT가 판결문 인용이나 심지어는 라틴어까지 이해하도록 만들었다고 말합니다.  누군가 어떤 상황에 대한 판결문을 찾고자 할 때,  이 기술은 라틴어 용어인 res jusdicata(소송 예결 문, 또는 결정문)로 문서를 찾는 법까지 알고 있다고 합니다.

 

Bloomberg지의 경제 뉴스와 정보서비스의 NLP전문가인 아만다 스텐트는 BERT와 같은 기술은 방대한 양의 언어 학습을 불필요하게 반복할 필요가 없기 때문에 매우 중요하다고 설명했습니다. 스텐트는 10단어의 문장조차 단어 조합에 따라 천문학적인 조합의 문장이 나오는데, BERT와 같은 강력한 언어 모델은 출발점으로 삼기에 매우 유용하다고 합니다.

 

Google BERT

 

그러나 어떤 AI 연구가들은 보통 언어모델이 인터넷의 데이터로 학습되기 때문에 그들이 읽어 들인 공격적인 텍스트를 가끔 앵무새처럼 읊조린다고 지적했습니다. 기업들이 이러한 부분을 사전에 인지한다면 도움이 될 것입니다.

 

스텐트와 그녀의 동료들은 최근 기업들이 훈련된 AI 기반의 언어모델이나 다른 머신러닝 시스템을 쓸 경우 베스트 프랙티스에 관한 책을 출판했습니다. 그들은 우선 주제에 관련한 전문가들이 트레이닝을 위한 텍스트에 주석을 달고 라벨링 하는 것(또는 제대로 라벨링이 되었는지를 확인하는 것)을 돕게 하고 생산관리자와 엔지니어가 해당 프로젝트에 빈틈이 생기지 않도록 함께 협업할 것을 추천합니다.

 

지향점은 기업이 새로운 상품을 시장에 내놓았을때 발생할 수 있는 모든 문제를 사전에 제거하는 것입니다. 결국, 어떤 사용자도 사악한 언어로 인해 상처 받길 원하지 않는다는 것입니다.

 

기업들이 반드시 깊이 새겨둬야할 한 가지는 데이터 훈련이 절대 멈춰서는 안 된다는 것입니다. 항상 개선의 여지는 있기 마련이기 때문입니다..

 

스텐트는 말했습니다

"It never stops."

 

기사원문: FORTUNE, EYE ON A.I. by JONATHAN VANIAN "Why teaching A.I. to read is a lifelong endeavor."

 

 

댓글