codex 5.3, opus 4.6, gemini 3.0 proの画像認識能力を比べた
Zenn|エンジニアのための情報共有コミュニティ [Unofficial]
February 8, 2026
TL;DR
Gemini 3.0 Pro Preview、Claude Opus 4.6、GPT-5.3 Codex(Extra High)に同じ画像を説明させた。Geminiの描写が最も正確だった。
プロンプト
~/Downloads/hennagazou.jpg に写ってるものを可能な限り正確に表現してみて
認識結果
Codex(GPT-5.3 Extra High)
画像には、田園地帯の道路でのスナップが写っています。見える要素を客観的に書くと次のとおりです。
右手前に、紺色のセーラー服を着た人物が腕を伸ばしてカメラを向け、笑顔で写っている(自撮り構図)。
そ...
Discussion in the ATmosphere