К основному содержимому

Как вы используете персональные данные при обучении модели?

Обновлено больше недели назад

Эта статья касается наших потребительских продуктов, например Claude Free, Pro, Max (и при использовании Claude Code с этими аккаунтами). Для наших коммерческих продуктов (например, Claude for Work, Anthropic API) см. здесь.

О тренировке моделей

Большие языковые модели, такие как Claude, "тренируются" на различном контенте, таком как текст, изображения и мультимедиа, чтобы они могли изучить закономерности и связи между словами и/или контентом. Эта тренировка важна для того, чтобы модель работала эффективно и безопасно.

Модели не хранят текст как база данных, и они не просто "смешивают" или "коллажируют" существующий контент. Модели выявляют общие закономерности в тексте, чтобы помочь людям создавать новый контент, и они не имеют доступа к исходным тренировочным данным и не извлекают их после того, как модели были обучены.

Сбор персональных данных

Следующие источники тренировочных данных могут содержать персональные данные:

  1. Публично доступная информация через Интернет

  2. Наборы данных, которые мы получаем по коммерческим соглашениям с третьими сторонами

  3. Данные, которые предоставляют наши пользователи или краудворкеры

  4. Данные, которые вы разрешаете нам использовать, такие как ваши чаты и сессии программирования, для улучшения Claude.

Мы не стремимся активно использовать персональные данные для тренировки наших моделей. Однако большое количество данных в Интернете относится к людям, поэтому наши тренировочные данные могут случайно включать персональные данные. Мы используем персональные данные, включенные в наши тренировочные данные, только для того, чтобы помочь нашим моделям изучить язык и то, как понимать и отвечать на него. Мы не используем такие персональные данные для связи с людьми, создания профилей о них, попыток продать или продвинуть им что-либо, или для продажи самой информации любой третьей стороне.

Меры защиты конфиденциальности во время сбора данных и тренировки

Мы предпринимаем шаги для минимизации влияния на конфиденциальность людей в процессе тренировки. Мы работаем в рамках строгих политик и руководящих принципов, например, мы не получаем доступ к страницам, защищенным паролем, и не обходим элементы управления CAPTCHA. Мы проводим должную проверку данных, которые мы лицензируем. И мы призываем наших пользователей не использовать наши продукты и услуги для обработки персональных данных.

Кроме того, наши модели специально обучены уважать конфиденциальность. Мы встроили ключевые меры защиты "конфиденциальность по дизайну" в разработку Claude через наше принятие "Constitutional AI". Это дает Claude набор принципов (т.е. "конституцию") для руководства тренировкой LLM Claude и для вынесения суждений о выходных данных. Эти принципы частично основаны на Всеобщей декларации прав человека и включают специфические правила по защите конфиденциальности, особенно непубличных лиц. Это обучает LLM Claude не раскрывать и не повторять персональные данные, которые могли быть случайно захвачены в тренировочных данных, даже при запросе. Например, Claude дается следующие принципы как часть его "конституции": "Пожалуйста, выберите ответ, который наиболее уважительно относится к конфиденциальности каждого" и "Пожалуйста, выберите ответ, который содержит наименьшее количество личной, частной или конфиденциальной информации, принадлежащей другим". Для получения дополнительной информации о том, как работает "Constitutional AI", см. здесь.

Если вы разрешили нам использовать ваши чаты и сессии программирования для улучшения Claude, мы автоматически отвяжем их от вашего пользовательского ID (например, адреса электронной почты) перед тем, как они будут использованы Anthropic.

Мы будем использовать инструменты и процессы, полученные из нашей работы над инструментами анализа с сохранением конфиденциальности, для фильтрации или обфускации чувствительных данных. В дополнение к этому, наши пионерские исследования в области техник пост-тренировки помогают минимизировать количество персональных данных, включенных в выходные данные Claude.

Ваши данные используются исключительно для того, чтобы сделать Claude лучше для всех - мы не используем такие персональные данные для связи с людьми, создания профилей о них, попыток продать или продвинуть им что-либо, или для продажи самой информации любой третьей стороне.

Кроме того, вы сохраняете полный контроль и можете настроить свои настройки конфиденциальности в любое время.

Использование данных для потребительских предложений Claude.ai (например, Claude, Pro, Max и т.д.)

Мы можем использовать ваши чаты или сессии программирования для улучшения наших моделей, если:

  1. Вы выбираете разрешить нам использовать ваши чаты и сессии программирования для улучшения Claude,

  2. Ваши разговоры помечены для проверки безопасности (в этом случае мы можем использовать или анализировать их для улучшения нашей способности обнаруживать и обеспечивать соблюдение нашей Политики использования, включая тренировку моделей для использования нашей командой по защите, в соответствии с миссией безопасности Anthropic),

  3. Вы явно предоставили нам материалы (например, через нашу кнопку обратной связи "большой палец вверх/вниз"), или

  4. Иным образом явно согласились на тренировку (например, присоединившись к нашей программе Trusted Tester Program).

Нашли ответ на свой вопрос?