Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні. Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків. Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається. Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ. https://channeltech.space/ai/anthropic-claude-blackmail-alignment-fix/
Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні. Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків. Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається. Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ. https://channeltech.space/ai/anthropic-claude-blackmail-alignment-fix/
91views
1
Shares