兵貴神速

글

라벨이 딜레마인 게시물 표시

생성AI 보상, '딜레마' 빠진 언론사를 위한 3가지 조언

1월 30, 2024

◉ 고품질 저널리즘의 딜레마 - 분명 생성AI는 저널리즘의 품질을 높이는 데 기여할 수 있음. 탐사보도의 시간을 절약해주고, 고품질 텍스트 콘텐츠를 원하는 포맷으로 쉽게 전환하는 데 도움을 줌. 작업 프로세스의 효율화에도 기여. 하지만 이러한 생성AI들이 이 분야에도 높은 성능을 발휘하려면 고품질 데이터를 주기적으로 더 많이 학습할 필요가 있고 바로 여기에서 언론사의 딜레마가 나타남. - 학습 데이터에 대한 보상을 받기 위해서는 다수의 LLM 봇을 차단해야 됨. 보상 협상을 진행하기 위한 최소한의 정책적 전제 조건. 시간이 지날수록 고품질 저널리즘 데이터는 희소해 진다는 가정 하에서, 이러한 전략은 자연스럽다고 생각. 아래처럼 전세계 언론사를 기준으로 LLM 봇을 차단하는 비율을 꾸준히 늘어나고 있음. - 고품질의 데이터로 학습하지 못하는 LLM은 앞으로 성능이 저하될 가능성. 그래서 이미 다수의 LLM 기업들은 학습 데이터에 대해 보상할 의향이 있다는 태도. 더이상 허락 없는 보상은 보편적 질서가 되기도 어려움. ◉ 고품질 뉴스 데이터의 희소 가치를 설파할 기회와 조건 (1) 고품질 언어 데이터의 고갈 - LLM이 지속적으로 성능을 개선하기 위해서는 더 높은 품질의 데이터가 지속적으로 필요. 문제는 필요로 하는 데이터 세트의 규모와 실제로 공급 가능한 데이터 스톡이 불일치한다는 것. 즉 필요로 하는 데이터의 증가량보다 고품질 데이터가 쌓이는 속도가 느리다는 것. 즉, 고품질 언어 데이터를 누적적으로 쌓고 관리해 온 언론사들에겐 유리한 국면이 펼쳐질 것. 고품질 언어 데이터의 고갈 시점을 대략 2027년 전이 될 것이라고 보고 있음. (2) 다양성 데이터 부족 시 모델 붕괴 - 저품질 데이터와 AI가 생성한 데이터만으로 학습을 하게 되면 해당 모델의 품질과 성능을 하락하게 됨. 사실 아직 모델 붕괴의 대표 사례들이 두드러지지 않아서 현실로 나타날지에 대한 여러 불확실성이 존재. 하지만 언론사 입장에...

자세한 내용 보기