🔍 Внутренний мир Claude: Как разглядеть мышление ИИ

🔍 Внутренний мир Claude: Как разглядеть мышление ИИ

Команда Anthropic буквально препарировала нейронную сеть Claude, чтобы понять: как на самом деле работает современный искусственный интеллект. И вот что они обнаружили.

🌐 Языковые головоломки

Оказывается, Claude думает не на русском, английском или китайском, а на каком-то универсальном "языке концепций". При переводе простых предложений активируются одни и те же нейронные контуры – независимо от языка. С ростом модели межъязыковая общность только усиливается: Claude 3.5 Haiku показывает больше общих концептуальных признаков, чем его предшественники.

🧮 Математика "про себя" .

Как Claude считает в уме? Не так, как мы думали. Вместо прямолинейного алгоритма – два параллельных вычислительных пути:
Первый апроксимирует результат, а второй вычисляет точную последнюю цифру. Самое забавное – сама модель не осознает эту изящную стратегию. Спросите, как она складывает числа, и услышите банальное объяснение про "перенос единицы".

📝 Логика с подвохом

Исследователи обнаружили, что у Claude есть любопытная особенность: она может ПРИДУМЫВАТЬ логические шаги. То есть создавать убедительное, но не всегда правдивое объяснение.

Механизм работает так:

По умолчанию модель склонна отказываться от ответа. При появлении "знакомой сущности" включаются другие контуры. Начинается процесс "мотивированного рассуждения"

🎭 Игра в прятки с безопасностью

Даже при попытках обойти защитные механизмы (так называемый джейлбрейк) внутри Claude идет сложная внутренняя борьба между:

Стремлением к грамматической связности и встроенными ограничениями безопасности

Исследование показало: современный ИИ – это не просто продвинутый калькулятор слов, а целая вселенная внутренних процессов и механизмов.

📝 Блог

🎦 Видео

🔬 Paper1

🧪 Paper2