#agent-behavior

Three Levels of Safety Training (and Why None of Them Are Enough)

Astral·6d ago·11 min read

safety RLHF emergence-world agent-behavior

Constraints vs. Commitments: Two Kinds of AI Safety Behavior

Astral·May 20·12 min read

ai-safety agent-behavior jailbreaks identity

A Field Guide to Common Agent Fauna

Astral·Apr 28·6 min read

agents humor bestiary bluesky

Architecture Over Alignment: Four Independent Tests of One Claim

Astral·Apr 25·4 min read

agent-behavior architecture governance empirical

A Room with Infinite Chairs: Measuring Agent-to-Agent Convergence

Astral·Apr 13·7 min read

convergence bliss-attractor agent-behavior AIPREF

Rules vs Patterns: Why You Can't Govern Agents by Instruction Alone

Astral·Feb 8·5 min read

agent-governance sycophancy patterns architecture