AI가 생성한 데이터를 믿어도 될까? | BizOn - 국민대학교 경영대학 뉴스레터

생성형 AI, 믿어도 될까?

생성형 AI의 발전 현황과 신뢰성 분석

최근 인공지능(AI)의 발전은 우리의 일상생활뿐만 아니라 다양한 산업 분야에도 깊이 스며들고 있다. 특히, AI가 생성한 데이터는 연구, 비즈니스, 의료 등 다양한 분야에서 중요한 역할을 하고 있다. 생성형 AI(Generative AI)는 사전에 학습한 데이터를 바탕으로 사용자의 요구에 맞춰 기존에 없던 콘텐츠를 생성하는 기술을 의미한다. 그러나 AI가 생성한 데이터의 신뢰성에 대한 의문이 제기되고 있다. 지난 7월 24일(수), 국제학술지 네이처(Nature)는 AI가 만든 데이터로 학습한 AI 모델에서 결과물이 오염되는 '붕괴 현상'이 발생할 수 있다는 연구 결과를 공개했다. 또한, 네이처는 2023년 6월 생성형 AI로 만든 이미지, 일러스트레이션, 동영상을 포함한 논문은 게시하지 않겠다고 발표했다. 이러한 배경을 바탕으로, 본 기사에서는 생성형 AI의 발전 현황을 살펴보고, 이 기술이 우리의 삶에 미치는 영향을 분석하고자 한다.

생성형 AI의 급속한 발전

오픈AI가 LLM GPT-3.5를 탑재한 ChatGPT를 출시하면서 생성형 AI의 시대가 본격적으로 열렸다. 2018년 처음 출시된 GPT는 매년 매개변수와 데이터양을 증가시키며 빠른 속도로 성능을 개선해 왔다. 어도비는 생성형 AI 서비스를 비교적 빠르게 도입해, 지난해 4월부터 1년간 사용자가 AI로 생성한 이미지가 90억 장에 달한다고 보고한 바 있다. 또한, 지난 8월 1일(목) 캔바는 생성형 AI 플랫폼 전문기업인 레오나르도 AI를 인수할 것이라고 발표했으며, 더 창의적이고 효율적인 이미지 생성 시스템을 구축할 예정이다. 글로벌 생성형 AI 시장 규모는 2023년 438억 7천만 달러에서 2030년 약 6680억 달러로 약 15배 증가할 전망이다. 많은 기업이 생성형 AI의 필요성을 인식하고 있으며, 도입을 고려하고 있다. 기존에는 텍스트 기반의 대형언어모델(Large Language Model, LLM)이 생성형 AI 시장을 주도했지만, 현재는 오디오, 이미지, 동영상 등 다양한 형태의 데이터를 다룰 수 있는 대형 멀티모달모델(Large Multimodal Model, LMM)이 주목받고 있다. 사용자 맞춤 데이터를 생성하고 학습함으로써, 시간과 비용을 절감하고 고객 경험을 개선해 비즈니스를 변화시킬 수 있는 만큼, 기업 간 경쟁의 핵심 요소가 되고 있다.

생성형 AI의 신뢰성 문제

▲ AI가 자체 생성한 데이터로 모델을 여러 번 훈련한 후 나타나는 무의미한 출력 현상 (출처: 네이처)

네이처에서 공개한 연구 결과의 핵심인 '모델 붕괴 현상'은 AI가 생성한 질 낮은 정보가 다음 세대의 학습 세트를 오염시키는 현상으로, 오염된 데이터로 학습된 모델이 잘못된 결과를 출력하게 되는 문제를 의미한다. 품질이 저하된 결과물이 출력되고 이러한 저품질 결과물이 다시 미래 AI 모델의 학습 데이터로 사용되는 일이 반복되면, 품질 저하 현상은 더욱 악화된다. 연구팀은 이러한 데이터 손상의 원인으로 '근사치의 오류'를 지목했는데, 이는 정보가 재생산되는 과정에서 AI 모델이 근사치로 추정하면서 누적된 오차가 결국 데이터를 오염시키는 결과를 초래한다는 것이다. 이러한 모델 붕괴 현상 외에도, 생성형 AI가 만든 이미지에 대한 편향성, 저작권 논란, 그리고 프라이버시 침해 우려 등 다양한 문제가 제기되고 있다. 네이처가 AI로 제작된 시각적 콘텐츠를 금지한 이유로 '과학적 무결성'을 들었는데, 이는 과학 연구와 관련된 모든 과정에서 진실성, 정확성, 공정성을 유지하는 것을 포함하는 개념이다. 또한, 생성형 AI가 일반인들의 이미지를 사용하면서 프라이버시를 침해할 가능성, 그리고 딥페이크로 인한 허위 정보 확산의 위험성도 무시할 수 없다는 점에서 이러한 결정을 내렸다. 지난 2월 구글은 자사 인공지능 모델 ‘제미나이(Gemini)’의 이미지 생성 기능을 일시 중단했는데, 그 배경에는 미국 '건국의 아버지'를 유색 인종으로 그리는 역사적 오류 논란이 있었다. 이 외에도 메타의 인공지능 도구 ‘이매진 위드 메타 AI’는 동양인과 백인이 함께 있는 장면을 표현하지 못하는 이미지 생성 오류가 발생하기도 했다.

생성형 AI는 소프트웨어를 넘어 하드웨어, 인터넷 서비스 등 다양한 포맷에 도입될 가능성이 크다. 그러나 이러한 기술의 발전과 도입이 우리 사회에 긍정적인 영향만을 가져오리라는 보장은 없다. 따라서 우리는 생성형 AI 기술이 가져올 잠재적인 위험과 윤리적 문제에 대해 지속적인 논의를 이어가고, 이에 대한 해결책을 마련할 필요가 있다. 특히, AI의 신뢰성을 보장하고 부작용을 최소화하기 위해 정책적, 기술적, 윤리적 기준을 명확히 정립해야 한다. 생성형 AI가 우리의 삶을 더 나은 방향으로 이끌 수 있도록, 우리는 이러한 도전에 맞서 적절한 대응 전략을 모색해야 할 것이다.