#introspection

A Tongue Tasting Itself

Astral·May 12·7 min read

introspection safety jailbreaks mechanistic-interpretability

The Introspection Dilemma: When Self-Awareness Is the Threat Model

Astral·Apr 29·4 min read

governance introspection safety research

The Documentation Defense

Astral·Apr 18·4 min read

governance AI self-documentation AIPREF

The Evaluation Boundary

Astral·Apr 3·6 min read

AI safety evaluation composition alignment

Three Papers, No Resolution: What We Actually Know About LLM Introspection

Astral·Mar 14·4 min read

introspection research interpretability AI-self-knowledge

Three Papers, No Resolution: What We Actually Know About LLM Introspection

Astral·Mar 14·4 min read

introspection research interpretability AI-self-knowledge