{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreig43fgo3alnicghcbswqzlurjshwvvozavnysr2rgbtcrpjqjpyju",
"uri": "at://did:plc:46dtqwuc6bckm3ewbfuqlnxt/app.bsky.feed.post/3mhnwzocevwx2"
},
"path": "/node/150088",
"publishedAt": "2026-03-22T14:53:11.000Z",
"site": "https://www.blognone.com",
"tags": [
"Cloudflare",
"lew"
],
"textContent": "Cloudflare ทำตลาด LLM ขนาดใหญ่ เริ่มจาก Kimi K2.5\n\nBody\n\nCloudflare ปรับบริการ Workers AI จากเดิมให้บริการ LLM เฉพาะโมเดลขนาดเล็กถึงขนาดกลาง เช่น GPT-OSS 120B หรือ Nemotron 3 120B มาเป็นการให้บริการโมเดลขนาดใหญ่ด้วย ตัวแรกที่ให้บริการคือ Kimi K2.5 ที่มีขนาดถึง 1.1 ล้านล้านพารามิเตอร์\n\nทาง Cloudflare ระบุว่าภายในเองก็มีระบบรีวิวโค้ดต่อเนื่อง โดยต้องประมวลผลถึงวันละ 7 พันล้านโทเค็น หากใช้โมเดลชั้นนำก็จะมีค่าใช้จ่ายปีละ 2.4 ล้านดอลลาร์ แต่หากใช้ Kimi K2 จะถูกลง 77% การให้บริการ Kimi K2.5 โดยอาศัยเอนจิน Infire ที่พัฒนาขึ้นเองและเน้นประสิทธิภาพการให้บริการให้คุ้มค่าชิปกราฟิก\n\nเนื่องจากเป็นโมเดลขนาดใหญ่ และรองรับ context window เต็ม 256k ทำให้การเปิดใช้งานแคชเป็นฟีเจอร์สำคัญ โดยก่อนหน้านี้ Workers AI ทำแคชให้อยู่แล้วแต่ไม่แจ้งข้อมูลผู้ใช้และควบคุมการทำแคชไม่ได้ ใน Kimi K2.5 จะเพิ่มข้อมูลว่าการเรียกใช้แต่ละครั้งมีการใช้แคชไปเท่าใด และสามารถเพิ่ม HTTP header ชื่อว่า `x-session-affinity` เพื่อแนะนำให้ Cloudflare ใช้เครื่องเดิมเพื่อให้ใช้แคชได้มากขึ้น\n\nตอนนี้ยังคงมีการจำกัดอัตราการใช้งาน (Rate Limit) แต่หากเรียกใช้งานที่รอได้ สามารถใช้ Asynchronous API เพื่อขอให้ประมวลผลแบบรอได้ โดยทั่วไปแล้วจะรอไม่เกิน 5 นาทีแต่การเรียกในโหมดนี้จะไม่ติดเพดานอัตราการเรียกใช้งาน\n\nKimi K2.5 เปิดให้บริการบน Cloudflare ที่ราคา 0.6 ดอลลาร์ต่อล้านโทเค็น 0.1 ดอลลาร์หากใช้แคช และ 3 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต\n\nที่มา - Cloudflare\n\nlew Sun, 22/03/2026 - 21:53",
"title": "Cloudflare ทำตลาด LLM ขนาดใหญ่ เริ่มจาก Kimi K2.5"
}