AI(인공지능)가 만든 데이터를 AI 학습 자료로 되먹이면 급격한 성능 열화가 일어난다는 ‘모델 붕괴’ 우려가 과장됐다는 진단이 나왔다.

세계 경제 성장을 주도하는 AI 산업에서 모델 붕괴는 업계의 지속가능성을 위협하는 골칫거리 중 하나다. 지금의 AI는 계속 막대한 학습 데이터가 필요한데, 사람이 생산하는 자료로는 수량이 모자라 인공 데이터를 쓸 수밖에 없기 때문이다.

특히 생성 AI 열풍으로 인터넷에 AI가 만든 텍스트와 그림 등이 급증하고 있는 만큼, 오픈 AI의 ‘챗GPT’처럼 웹 데이터를 쓰는 주요 AI 모델이 인공 자료 되먹임 탓에 곧 성능 저하의 벽에 부딪힐 것이라는 관측이 적잖다.

3일 AI 업계에 따르면 유명 AI 석학인 앤드루 응 미국 스탠퍼드대 교수는 최근 자신이 운영하는 뉴스레터 ‘더배치'(The Batch)에서 “모델 붕괴는 업계나 학계의 걱정과 달리 단기적으로 닥칠 수 있는 위험이 아니며, 아예 위험이 아닐 수도 있다”고 짚었다.

응 교수는 인공 데이터와 사람이 만든 데이터를 적절히 섞는 기법으로 이 문제를 얼마든지 피할 수 있다고 지적했다.

모델 붕괴 문제를 지적한 연구에서도 훈련 데이터에 인간 생성 데이터를 10%만 집어넣으면 성능 열화가 대폭 줄어드는 것으로 나타났다는 것이다.

그는 “우리에게 필요한 것은 훈련 데이터에 AI 생성 자료가 얼마나 들어가는지를 세심히 추적하는 조처”라며 “인공 데이터를 골라내는 알고리즘이나 AI 콘텐츠에 붙이는 워터마크(식별표) 등의 도움을 통해 이런 작업을 더 쉽게 해낼 수 있을 것”이라고 내다봤다.

인공 데이터 기술이 빨리 발전하는 것도 긍정적 요인이라고 응 교수는 전했다.

이미 AI 데이터 기반의 학습은 ‘라마3’와 ‘클로드’ 등 유명 생성 AI에 널리 쓰이는 데다 가벼운 고효율 AI나 희귀 언어 번역기 등의 개발에 꼭 필요한 기법이라 앞으로 더 안정적인 기술이 나올 공산이 크다는 얘기다.

모델 붕괴 우려는 작년 봄 영국 옥스퍼드대 등의 연구진이 쓴 논문 ‘반복(recursion)의 저주: 인공 데이터를 통한 훈련이 모델을 망각에 빠뜨린다’가 화제가 되면서 업계에 널리 퍼졌다.

연구진은 논문에서 AI에 기계 생성 데이터를 계속 되먹이면 결국 모델의 학습이 교란돼 결괏값의 품질과 다양성이 크게 떨어진다는 사실을 입증했다.