43サイトの専用パーサーを実装して分かった、日本のWebサイトの「闇」と「光」
Zenn|エンジニアのための情報共有コミュニティ [Unofficial]
March 17, 2026
はじめに
Web Reader APIという、URLを投げるとAI要約付きのMarkdownを返すAPIを開発しています。
https://rapidapi.com/bitsap/api/webreader-ai
Readability(Firefoxのリーダーモードに使われている汎用抽出エンジン)だけでは日本のサイトに対応しきれず、43サイトの専用パーサーを実装することになりました。
この記事では、各サイトのHTML構造と格闘する中で遭遇した技術的なハマりどころ、設計判断、そして「なぜ汎用パーサーでは日本のサイトがうまく抽出できないのか」を赤裸々に書きます。
なぜ汎用パーサーで...
Discussion in the ATmosphere