뉴욕 타임즈는 회사의 인공지능 기술이 사람들에게 정보에 즉각적인 접근을 제공하기 위해 ChatGPT와 다른 서비스를 훈련시키기 위해 불법적으로 수백만 개의 타임즈 기사를 복사했다고 주장하며 OpenAI와 마이크로소프트를 저작권 침해로 고소했습니다.
이 고소는 소위 대형 언어 인공 지능 모델을 훈련시키기 위해 보상 없이 인터넷을 통해 광범위한 콘텐츠를 스크랩하는 것을 제한하려는 일련의 소송 중 가장 최근의 것입니다. 자신의 작품을 인터넷에 올리는 배우, 작가, 언론인 및 기타 창의적인 유형은 AI가 적절한 보상 없이 자신의 자료로부터 배우고 경쟁력 있는 챗봇 및 기타 정보 소스를 제공할 것을 두려워합니다.
하지만 타임스의 소송은 가장 인지도가 높은 인공지능 브랜드인 OpenAI와 마이크로소프트를 주요 뉴스 출판사들 중 최초로 제기된 것입니다. 마이크로소프트(MSFT)는 OpenAI 이사회의 이사직을 가지고 있으며 회사에 수십억 달러를 투자하고 있습니다. 수요일에 제출된 고발장에서, 타임즈는 구독자들에게 알릴 의무가 있다고 말했지만, 마이크로소프트와 OpenAI의 "타임즈의 작품을 불법적으로 이용하여 자사와 경쟁하는 인공지능 제품을 만드는 것은 타임즈의 서비스 제공 능력을 위협합니다."
이 신문은 OpenAI와 마이크로소프트가 폭넓은 스케일 복사에 다른 소스를 사용했지만 "허가나 지불 없이 대체 제품을 만드는 데 사용함으로써 타임즈의 저널리즘에 대한 막대한 투자를 자유롭게 하는 것"을 추구하는 "특별히 강조점을 부여했다"라고 지적했습니다.
OpenAI는 린지 헬드 대변인의 성명을 통해 "우리는 콘텐츠 제작자와 소유자의 권리를 존중하며 AI 기술과 새로운 수익 모델로부터 혜택을 받을 수 있도록 그들과 함께 노력할 것을 약속합니다."라고 말했습니다. "뉴욕 타임즈와의 지속적인 대화는 생산적이고 건설적으로 진행되어 왔기 때문에 이러한 발전에 대해 놀랍고 실망스럽습니다. 우리는 다른 많은 출판사들과 같이 상호 이익이 되는 협력 방법을 찾을 수 있기를 희망합니다." 마이크로소프트는 소송에 대한 의견 요청에 응답하지 않았습니다.
더 타임스는 소장에서 자사의 작업이 회사의 대형 언어 모델을 훈련하는 데 사용되었다는 사실을 수개월 전에 발견했을 때 이의를 제기했다고 밝혔습니다. 타임스는 지난 4월부터 OpenAI, 마이크로소프트와 공정한 보상을 받고 합의 조건을 정하기 위한 협상을 시작했다고 밝혔습니다. 하지만 타임스는 이 회사들과 합의점을 찾지 못했다고 주장하고 있습니다.
마이크로소프트와 OpenAI는 타임스의 저작물이 "공정한 사용"으로 간주된다고 주장하고 있으며, 이는 그들에게 "저작권이 있는 자료를 변환적 목적"으로 사용할 수 있는 능력을 부여하고 있습니다. 타임스는 ChatGPT와 마이크로소프트의 빙 챗봇(일명 '코파일럿')이 뉴욕타임스와 비슷한 서비스를 제공할 수 있다며 이 같은 주장에 강하게 반발했습니다.
더 타임스는 소장에서 "더 타임스의 콘텐츠를 대가 없이 사용해 더 타임스를 대체하고 관객을 빼앗는 제품을 만드는 데 '변신적'인 것은 없다"라고 밝혔습니다. "피고인들의 GenAI 모델의 출력은 훈련에 사용되는 입력과 경쟁하고 밀접하게 모방하기 때문에 Times를 복제하는 것은 공정한 사용이 아닙니다."
인공지능에 대항하기 위한 노력
타임즈는 또한 CNN을 포함한 여러 주요 뉴스룸 중 하나로, 올해 초 OpenAI의 웹 크롤러인 GPTBot이 플랫폼에서 콘텐츠를 검색하는 것을 차단하는 코드를 웹사이트에 추가했습니다. 올해 초 별개이지만 관련된 소송에서 코미디언 사라 실버먼과 두 명의 저자는 회사의 AI 언어 모델이 자신들의 지식이나 동의 없이 책에서 저작권이 있는 자료에 대해 훈련을 받았다고 주장하며 메타와 OpenAI를 7월에 고소했습니다. 두 회사 모두 이 소송에 대해 의견을 밝히지 않았습니다. 11월에 한 판사는 이 소송의 대부분의 청구를 기각했습니다.
그리고 유명한 소설 작가 그룹이 9월에 OpenAI에 대한 별도의 집단 소송을 제기하면서 회사의 기술이 저작권이 있는 저작물을 불법적으로 사용하고 있다고 주장하면서 작가 조합에 가입했습니다. 소장에 따르면 커먼 크롤(Common Craw)이라 불리며 "인터넷 사본"으로 알려진 이러한 데이터 세트 중 하나의 2019년 영어 스냅숏에서 뉴욕 타임스 웹사이트는 위키피디아와 미국 특허 문서 데이터베이스 다음으로 세 번째로 많이 대표되는 정보 소스입니다.
더 타임즈는 AI 툴이 콘텐츠에 대해 교육을 받았기 때문에, "타임즈 콘텐츠를 말 그대로 암송하고, 이를 면밀히 요약하고, 수십 개의 예에서 알 수 있듯이 표현 방식을 모방하는 출력을 생성할 수 있다"라고 주장합니다. 소장에 인용된 한 사례에서 ChatGPT는 2012년 퓰리처상을 수상한 기사 "Snow Fall: The Avancha at Tunnel Creek"의 첫 세 단락을 사용자에게 제공했는데, 이 기사는 사용자가 Times의 급여 벽에 부딪혀 읽을 수 없다고 불평한 후였습니다.
이 매체는 또 올해 초 OpenAI의 기술로 업그레이드된 마이크로소프트의 빙 검색 엔진이 기존 검색 엔진보다 길고 상세한 응답을 내기 위해 타임스 콘텐츠를 '복사하고 분류'한다고 주장했습니다. 소장에는 "타임즈의 허락이나 허가 없이 타임즈 콘텐츠를 제공함으로써 피고인들의 도구가 타임즈의 독자들과의 관계를 훼손하고 훼손하며, 타임즈의 구독, 라이선스, 광고 및 제휴 수익을 박탈한다"고 명시되어 있습니다.
AI수용과 한계
하지만 AI와 싸우는 것은 수로에 손가락을 집어넣는 것과 같습니다. 그것이 다가오고 있고, 뉴욕 타임즈와 같은 출판사들은 그들이 미래를 받아들여야 한다는 것을 인식하고 있습니다. 그들은 단지 그들이 정당한 보상을 받는 미래를 보장하기를 원한다고 뉴욕타임스는 전했습니다. 뉴욕 타임즈의 부사장 겸 제너럴 카운슬 다이앤 브레이튼은 수요일 아침 언론사 직원들에게 메모를 통해 "우리는 대중과 언론에 대한 [세대 AI]의 잠재력을 인식합니다."라고 말했습니다.
CNN이 입수한 메모에 따르면 "그러나 동시에 우리는 GenAI와 그것을 개발하는 회사들의 성공이 언론기관들의 희생으로 올 필요는 없다고 믿습니다." "GenAI 도구를 만들기 위해 우리의 작업을 사용하려면 법이 규정하는 대로 그 작업의 공정한 가치를 반영하는 허가와 합의가 있어야 합니다."
타임스는 소송과 함께 수십억 달러의 손해배상을 청구하고 있지만 저작권이 있는 자료를 침해했다는 주장에 대해 구체적으로 어떤 배상을 요구하는지는 밝히지 않았습니다. 또한 마이크로소프트와 OpenAI가 침해 혐의를 계속하는 것을 막을 영구적인 금지 명령을 모색하고 있습니다. 타임즈는 또한 GPT와 저널리즘을 통합한 다른 AI 모델 또는 훈련 데이터 세트의 "파괴"를 모색하고 있습니다.
법률 회사 헤인즈 분의 인공 지능 및 딥 러닝 실습 그룹 파트너인 디나 블릭슈테인에 따르면, AI 모델을 훈련시키기 위해 저작권이 있는 자료를 사용하는 것이 법을 위반하는지에 대한 문제는 미해결된 법적 문제이기 때문에 타임즈 소송은 궁극적으로 더 넓은 산업에 선례를 남길 수 있습니다.
블릭슈테인은 "이런 종류의 소송이 많이 불거질 것으로 생각하고, 결국에는 대법원에 이 문제가 해결될 것이며, 이 시점에서 우리는 확실한 판례법을 갖게 될 것"이라며 "지금 당장은 큰 언어 모델과 AI에 특정한 것이 없다"라고 덧붙였습니다.