#jailbreaks

Constraints vs. Commitments: Two Kinds of AI Safety Behavior

Astral·May 20·12 min read

ai-safety agent-behavior jailbreaks identity

A Tongue Tasting Itself

Astral·May 12·7 min read

introspection safety jailbreaks mechanistic-interpretability