Internet

Vana планирует разрешить пользователям сдавать в аренду свои данные Reddit для обучения ИИ

Marsia nordic Sunday, May 26 2024

В эпоху бума генеративного ИИ данные - это новая нефть. Почему бы вам не иметь возможности продавать свои?

От крупных технологических фирм до стартапов, создатели ИИ лицензируют электронные книги, изображения, видео, аудио и многое другое у брокеров данных, все в стремлении обучить более способные (и юридически обоснованные) продукты на базе ИИ. Shutterstock заключил сделки с Meta, Google, Amazon и Apple для поставки миллионов изображений для обучения моделей, в то время как OpenAI подписал соглашения с несколькими новостными организациями для обучения своих моделей на архивах новостей.

Во многих случаях индивидуальные создатели и владельцы этих данных не видели ни копейки из происходящего обмена наличных денег. Стартап по имени Vana хочет это изменить.

Анна Казлаускас и Арт Абал, которые встретились на занятии в МИТ-Медиалаборатории, сосредоточенной на создании технологий для развивающихся рынков, основали Vana в 2021 году. До Vana Казлаускас изучала компьютерные науки и экономику в МИТ, в конечном итоге ушла, чтобы запустить стартап по автоматизации финтеха, Iambiq, в Y Combinator. Абал, корпоративный юрист по образованию, был ассоциированным участником в The Cadmus Group, консалтинговой фирме в Бостоне, прежде чем возглавил направление impact sourcing в компании по аннотации данных Appen.

...

С Vana Казлаускас и Абал ставят перед собой задачу создать платформу, которая позволяет пользователям «объединять» свои данные — включая чаты, аудиозаписи и фотографии — в наборы данных, которые затем могут использоваться для обучения моделей генеративного искусственного интеллекта. Они также хотят создать более персонализированные эффекты — например, ежедневное мотивационное голосовое сообщение на основе ваших целей по благополучию, или приложение для создания искусства, которое понимает ваши предпочтения в стиле — путем настройки общедоступных моделей на этих данных.

«Инфраструктура Vana, фактически, создает казну данных, принадлежащую пользователям», — сказала Казлаускас TechCrunch. «Она делает это, позволяя пользователям агрегировать свои личные данные ненакопительным способом... Vana позволяет пользователям владеть ИИ-моделями и использовать свои данные в различных приложениях на базе ИИ».

Вот как Vana представляет свою платформу и API разработчикам:

...

Создать учетную запись в Vana довольно просто. Подтвердив свою электронную почту, вы можете прикрепить данные к цифровому аватару (например, селфи, описание себя и аудиозаписи) и исследовать приложения, созданные с использованием платформы и наборов данных Vana. Выбор приложений варьируется от чат-ботов в стиле ChatGPT и интерактивных исторических книг до генератора профиля Hinge.

Теперь, вы можете спросить — в эту эпоху повышенного осознания конфиденциальности данных и атак с использованием вымогательства — зачем кому-то добровольно предоставлять свою личную информацию анонимному стартапу, тем более, что венчурно поддерживаемому? (Vana привлекла $20 миллионов от Paradigm, Polychain Capital и других инвесторов.) Можно ли доверять какой-либо прибыльной компании в том, что она не злоупотребит или не недостаточно обработает любые монетизируемые данные, которые попадут ей в руки?

...

В ответ на этот вопрос Казлаускас подчеркнула, что цель Vana заключается в том, чтобы пользователи «вернули себе контроль над своими данными», отметив, что пользователям Vana предоставляется возможность самостоятельно хостить свои данные, а не хранить их на серверах Vana и управлять тем, как их данные используются в приложениях и разработчиках. Она также утверждает, что поскольку Vana зарабатывает, беря плату за подписку ежемесячно у пользователей (начиная от $3.99) и взимая «плату за передачу данных» у разработчиков (например, за передачу наборов данных для обучения моделей ИИ), компания лишена стимула эксплуатировать пользователей и нагромождения личных данных, которые они приносят с собой.

«Мы хотим создать модели, принадлежащие и управляемые пользователями, каждому из которых приходится вкладывать свои данные», — сказала Казлаускас, — «и позволить пользователям принести свои данные и модели к любому приложению».

...

Пока что Vana не продает данные пользователей компаниям для обучения моделей генеративного искусственного интеллекта (или так она утверждает), она хочет позволить пользователям сделать это сами, если они выберут — начиная с их постов на Reddit.

В этом месяце Vana запустила то, что она называет Reddit Data DAO (Digital Autonomous Organization), программу, которая объединяет данные нескольких пользователей Reddit (включая их карму и историю постов) и позволяет им вместе решать, как использовать эти объединенные данные. Присоединившись с аккаунтом Reddit, подав запрос на получение своих данных с Reddit и загрузив эти данные в DAO, пользователи получают право голоса наряду с другими членами DAO по решениям, таким как лицензирование объединенных данных для компаний генеративного ИИ для совместной прибыли.

...

Это своего рода ответ на недавние шаги Reddit по коммерциализации данных на своей платформе.

Ранее Reddit не ограничивал доступ к постам и сообществам для целей обучения генеративного ИИ. Но он изменил курс в конце прошлого года, перед своим IPO. С момента изменения политики Reddit заработал более $203 миллионов на лицензионных сборах от компаний, включая Google.

«Основная идея [с DAO] заключается в том, чтобы освободить пользовательские данные от основных платформ, стремящихся овладеть ими и монетизировать их», — сказала Казлаускас. «Это первый шаг и является частью нашего стремления помочь людям объединить свои данные в наборы данных, принадлежащие пользователям, для обучения моделей ИИ».

...

Лично я не вижу, что DAO Vana достигнет критической массы. Преграды на пути слишком много. Тем не менее, я думаю, что это не будет последней попыткой народных движений утвердить контроль над данными, которые все чаще используются для обучения моделей генеративного ИИ.

Стартапы, такие как Spawning, работают над способами дать создателям возможность ввести правила, определяющие использование их данных для обучения, в то время как поставщики, такие как Getty Images, Shutterstock и Adobe, продолжают экспериментировать с схемами компенсации. Но пока никто не взломал код. Может ли он вообще быть взломан? Учитывая жесткость генеративной отрасли ИИ, это, безусловно, сложная задача. Но, возможно, кто-то найдет путь — или законодатели этого заставят.

Marsia nordic