Отчет New York Times подробно рассказывает, как крупные компании в области искусственного интеллекта решали проблему недостатка качественных данных для обучения ИИ. По данным журналистов лидеры рынка активно использовали «серые схемы», обсуждали возможность нарушения авторских прав и меняли пользовательские соглашения.
Компания OpenAI, как сообщается, разработала собственную модель для расшифровки аудио Whisper и использовала более миллиона часов видео с YouTube для обучения наиболее известной большой языковой модели GPT 4. При этом журналисты пишут, что компания знала, что пользовательское соглашение YouTube запрещает автоматизированное распознавание видео.
Представители Google, которой принадлежит YouTube, сообщили The Verge, что компания «видела неподтвержденные сообщения» о деятельности OpenAI. Они также подтвердили, что Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube. При этом журналисты пишут, что Google не препятствовала сбору данных с видеохостинга, потому что также использовала расшифровку данных для обучения собственного ИИ.
С проблемой недостатка качественных данных также столкнулась Meta*, которой принадлежат социальные сети Instagram и Facebook. По данным американских журналистов, на внутренних совещаниях в компании обсуждали возможность использовать защищенный авторским правом контент несмотря на возможные иски или покупку издательства, чтобы получить доступ к книгам.
Модели ИИ становятся лучше, чем больше данных они поглощают. Разработчики таких систем находятся в постоянном поиске новых источников за пределами общедоступной информации в сети, которая уже полностью использована.
Возможное решение этой проблемы использовать синтетические данные. В этом случае модели ИИ сами генерируют искусственный контент и используют его для обучения. Но судя по многочисленным сообщениям и искам — компании также активно используют пользовательскую информацию несмотря на возможные риски.
* Компания Meta Platforms Inc. признана в России экстремистской. Деятельность компании и принадлежащих ей социальных сетей Facebook и Instagram на территории РФ запрещена