Raw Record Source

{
  "$type": "site.standard.document",
  "bskyPostRef": {
    "cid": "bafyreig43fgo3alnicghcbswqzlurjshwvvozavnysr2rgbtcrpjqjpyju",
    "uri": "at://did:plc:46dtqwuc6bckm3ewbfuqlnxt/app.bsky.feed.post/3mhnwzocevwx2"
  },
  "path": "/node/150088",
  "publishedAt": "2026-03-22T14:53:11.000Z",
  "site": "https://www.blognone.com",
  "tags": [
    "Cloudflare",
    "lew"
  ],
  "textContent": "Cloudflare ทำตลาด LLM ขนาดใหญ่ เริ่มจาก Kimi K2.5\n\nBody\n\nCloudflare ปรับบริการ Workers AI จากเดิมให้บริการ LLM เฉพาะโมเดลขนาดเล็กถึงขนาดกลาง เช่น GPT-OSS 120B หรือ Nemotron 3 120B มาเป็นการให้บริการโมเดลขนาดใหญ่ด้วย ตัวแรกที่ให้บริการคือ Kimi K2.5 ที่มีขนาดถึง 1.1 ล้านล้านพารามิเตอร์\n\nทาง Cloudflare ระบุว่าภายในเองก็มีระบบรีวิวโค้ดต่อเนื่อง โดยต้องประมวลผลถึงวันละ 7 พันล้านโทเค็น หากใช้โมเดลชั้นนำก็จะมีค่าใช้จ่ายปีละ 2.4 ล้านดอลลาร์ แต่หากใช้ Kimi K2 จะถูกลง 77% การให้บริการ Kimi K2.5 โดยอาศัยเอนจิน Infire ที่พัฒนาขึ้นเองและเน้นประสิทธิภาพการให้บริการให้คุ้มค่าชิปกราฟิก\n\nเนื่องจากเป็นโมเดลขนาดใหญ่ และรองรับ context window เต็ม 256k ทำให้การเปิดใช้งานแคชเป็นฟีเจอร์สำคัญ โดยก่อนหน้านี้ Workers AI ทำแคชให้อยู่แล้วแต่ไม่แจ้งข้อมูลผู้ใช้และควบคุมการทำแคชไม่ได้ ใน Kimi K2.5 จะเพิ่มข้อมูลว่าการเรียกใช้แต่ละครั้งมีการใช้แคชไปเท่าใด และสามารถเพิ่ม HTTP header ชื่อว่า `x-session-affinity` เพื่อแนะนำให้ Cloudflare ใช้เครื่องเดิมเพื่อให้ใช้แคชได้มากขึ้น\n\nตอนนี้ยังคงมีการจำกัดอัตราการใช้งาน (Rate Limit) แต่หากเรียกใช้งานที่รอได้ สามารถใช้ Asynchronous API เพื่อขอให้ประมวลผลแบบรอได้ โดยทั่วไปแล้วจะรอไม่เกิน 5 นาทีแต่การเรียกในโหมดนี้จะไม่ติดเพดานอัตราการเรียกใช้งาน\n\nKimi K2.5 เปิดให้บริการบน Cloudflare ที่ราคา 0.6 ดอลลาร์ต่อล้านโทเค็น 0.1 ดอลลาร์หากใช้แคช และ 3 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต\n\nที่มา - Cloudflare\n\nlew Sun, 22/03/2026 - 21:53",
  "title": "Cloudflare ทำตลาด LLM ขนาดใหญ่ เริ่มจาก Kimi K2.5"
}