{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreiakisp6llqmzdkzahslu6q4v3zqpyfjvsbj332n4uerv2t3di7ubq",
    "uri": "at://did:plc:46dtqwuc6bckm3ewbfuqlnxt/app.bsky.feed.post/3mk4dc7clf5e2"
  },
  "coverImage": {
    "$type": "blob",
    "ref": {
      "$link": "bafkreiec6zrfhwjx6j7jb7da5i2mj4i3x3wtsjjkf4t5rrho3nwon4u4eu"
    },
    "mimeType": "image/jpeg",
    "size": 38915
  },
  "path": "/node/150325",
  "publishedAt": "2026-04-22T17:36:13.000Z",
  "site": "https://www.blognone.com",
  "tags": [
    "Google Cloud Blog",
    "lew"
  ],
  "textContent": "กูเกิลเปิดตัว TPU รุ่นที่ 8 แยกชิปฝึกโมเดลออกจากชิปรัน\n\nBody\n\nกูเกิลเปิดตัวชิป TPU รุ่นที่ 8 แยกเป็น TPU 8t สำหรับฝึกโมเดลปัญญาประดิษฐ์และ TPU 8i สำหรับรัน แม้จะชื่อคล้ายกันแต่ชิปทั้งสองตัวกลับเป็นคอร์คนละแบบ และการเชื่อมต่อภายในต่างกัน\n\nTPU 8t เพิ่ม SparseCore ควบคุมการเข้าถึงหน่วยความจำ ตัวคอร์ MXU สำหรับคูณเมทริกซ์รองรับทศนิยม 4 บิต (FP4) ในตัว เชื่อมต่อระหว่างชิปด้วย Virgo Network ที่เชื่อมชิปได้สูงสุด 134,000 ชิป ที่แบนวิดท์รวม 47 เพตาบิตต่อวินาที รวมพลังประมวลผลสูงสุด 1.6 ล้าน ExaFLOPS ชิปมีความสามารถอ้างหน่วยความจำระหว่างกัน TPUDirect RDMA โดยไม่ต้องผ่านซีพียู รวมถึงส่งข้อมูลจากสตอเรจเข้า TPU โดยตรงเลยก็ได้\n\nTPU 8i ขยาย SRAM บนชิปขึ้น 3 เท่าตัวแก้ปัญหา memory bandwidth ที่เป็นคอขวดสำคัญในการรันโมเดล LLM เพิ่มส่วน Collectives Acceleration Engine (CAE) ที่ใช้รวบรวมผลการรันเพื่อเร่งความเร็วในช่วง decoding ของโมเดลปัญญาประดิษฐ์ กระบวนการเชื่อมต่อระหว่างชิปออกแบบใหม่เป็นรูปแบบ Boardfly ICI ที่ออกแบบโดยคำนึงถึงการรันโมเดลแบบ MoE\n\nโดยรวมแล้วกูเกิลระบุว่า TPU 8t มีประสิทธิภาพต่อราคาดีกว่า Ironwood รุ่นก่อนหน้าถึง 2.7 เท่าตัว ขณะที่ TPU 8i ใช้รันโมเดลได้ดีขึ้น 80% โดยเฉพาะเมื่อใช้กับโมเดล MoE ขนาดใหญ่\n\nตอนนี้ฝั่งซอฟต์แวร์ของ TPU มี Pallas ของตัวเองที่รีดพลังประมวลผลได้สูงสุด ส่วน PyTorch รุ่น TPU อยู่ในช่วงพรีวิวแล้ว\n\nตอนนี้ผู้สนใจต้องลงทะเบียนแสดงความสนใจใช้งานล่วงหน้า\n\nที่มา - Google Cloud Blog\n\nlew Thu, 23/04/2026 - 00:36",
  "title": "กูเกิลเปิดตัว TPU รุ่นที่ 8 แยกชิปฝึกโมเดลออกจากชิปรัน"
}