การแนะนำ

ความวิตกกังวลที่เกิดขึ้นอย่างต่อเนื่องในหมู่คู่แข่งของโมเดลขนาดใหญ่ ผู้ให้บริการระบบคลาวด์ที่แข่งขันกันเพื่อส่วนแบ่งการตลาด และผู้ผลิตชิปที่ทำงานหนัก—เอฟเฟกต์ DeepSeek ยังคงมีอยู่

เมื่อเทศกาลตรุษจีนใกล้จะสิ้นสุดลง ความตื่นเต้นที่เกิดขึ้นรอบๆ DeepSeek ก็ยังคงมีอยู่มาก วันหยุดที่ผ่านมาเน้นย้ำถึงความรู้สึกถึงการแข่งขันที่สำคัญภายในอุตสาหกรรมเทคโนโลยี โดยหลายคนได้พูดคุยและวิเคราะห์เกี่ยวกับ "ปลาดุก" นี้ ซิลิคอนวัลเลย์กำลังเผชิญกับวิกฤตการณ์ที่ไม่เคยเกิดขึ้นมาก่อน ผู้สนับสนุนโอเพ่นซอร์สกำลังแสดงความคิดเห็นอีกครั้ง และแม้แต่ OpenAI ก็ยังกำลังประเมินใหม่ว่ากลยุทธ์โอเพ่นซอร์สเป็นทางเลือกที่ดีที่สุดหรือไม่ แนวคิดใหม่ของต้นทุนการคำนวณที่ต่ำลงได้กระตุ้นให้เกิดปฏิกิริยาลูกโซ่ในหมู่ยักษ์ใหญ่ด้านชิป เช่น Nvidia ส่งผลให้มูลค่าตลาดลดลงในวันเดียวในประวัติศาสตร์ตลาดหุ้นสหรัฐฯ ในขณะที่หน่วยงานของรัฐกำลังตรวจสอบการปฏิบัติตามข้อกำหนดของชิปที่ DeepSeek ใช้ ท่ามกลางบทวิจารณ์ที่หลากหลายเกี่ยวกับ DeepSeek ในต่างประเทศ ในประเทศ DeepSeek ก็มีการเติบโตอย่างก้าวกระโดด หลังจากเปิดตัวโมเดล R1 แอปที่เกี่ยวข้องก็พบว่ามีปริมาณการใช้งานเพิ่มขึ้น ซึ่งบ่งชี้ว่าการเติบโตของภาคส่วนแอปพลิเคชันจะผลักดันระบบนิเวศ AI โดยรวมให้ก้าวไปข้างหน้า แง่บวกก็คือ DeepSeek จะขยายความเป็นไปได้ของแอปพลิเคชัน ซึ่งบ่งชี้ว่าการพึ่งพา ChatGPT จะไม่แพงในอนาคต การเปลี่ยนแปลงนี้สะท้อนให้เห็นในกิจกรรมล่าสุดของ OpenAI รวมถึงการจัดเตรียมโมเดลการใช้เหตุผลที่เรียกว่า o3-mini ให้กับผู้ใช้ฟรีเพื่อตอบสนองต่อ DeepSeek R1 รวมถึงการอัปเกรดในเวลาต่อมาที่ทำให้แนวคิดของ o3-mini เผยแพร่สู่สาธารณะ ผู้ใช้จากต่างประเทศจำนวนมากแสดงความขอบคุณ DeepSeek สำหรับการพัฒนาเหล่านี้ แม้ว่าแนวคิดนี้จะทำหน้าที่เป็นบทสรุปก็ตาม

หากมองในแง่ดี จะเห็นได้ชัดว่า DeepSeek กำลังรวมผู้เล่นในประเทศเข้าด้วยกัน ด้วยการมุ่งเน้นที่การลดต้นทุนการฝึกอบรม ผู้ผลิตชิปต้นน้ำต่างๆ ผู้ให้บริการคลาวด์ระดับกลาง และสตาร์ทอัพจำนวนมากกำลังเข้าร่วมระบบนิเวศอย่างแข็งขัน ซึ่งช่วยเพิ่มประสิทธิภาพด้านต้นทุนสำหรับการใช้โมเดล DeepSeek ตามเอกสารของ DeepSeek การฝึกอบรมทั้งหมดของโมเดล V3 ต้องใช้เวลาเพียง 2.788 ล้านชั่วโมง GPU H800 และกระบวนการฝึกอบรมมีความเสถียรสูง สถาปัตยกรรม MoE (Mixture of Experts) มีความสำคัญอย่างยิ่งในการลดต้นทุนการฝึกอบรมล่วงหน้าเป็นสิบเท่าเมื่อเทียบกับ Llama 3 ที่มีพารามิเตอร์ 405 พันล้านตัว ปัจจุบัน V3 เป็นโมเดลที่ได้รับการยอมรับต่อสาธารณะรุ่นแรกที่แสดงให้เห็นถึงความเบาบางสูงดังกล่าวใน MoE นอกจากนี้ MLA (Multi Layer Attention) ยังทำงานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะในแง่มุมของการใช้เหตุผล "ยิ่ง MoE มีจำนวนน้อยเท่าไร ก็ยิ่งต้องใช้ขนาดแบตช์มากขึ้นเท่านั้นในการคิดหาเหตุผลเพื่อใช้ประโยชน์จากพลังการคำนวณอย่างเต็มที่ โดยขนาดของ KVCache เป็นปัจจัยจำกัดหลัก MLA ลดขนาด KVCache ลงอย่างมาก" นักวิจัยจาก Chuanjing Technology กล่าวในการวิเคราะห์สำหรับ AI Technology Review โดยรวมแล้ว ความสำเร็จของ DeepSeek นั้นมาจากการผสมผสานเทคโนโลยีต่างๆ เข้าด้วยกัน ไม่ใช่แค่เทคโนโลยีเดียว ผู้เชี่ยวชาญในอุตสาหกรรมชื่นชมความสามารถด้านวิศวกรรมของทีม DeepSeek โดยสังเกตถึงความเป็นเลิศในการฝึกอบรมแบบคู่ขนานและการเพิ่มประสิทธิภาพของผู้ปฏิบัติงาน ซึ่งให้ผลลัพธ์ที่ก้าวล้ำด้วยการปรับปรุงทุกรายละเอียด แนวทางโอเพ่นซอร์สของ DeepSeek ช่วยกระตุ้นการพัฒนาโมเดลขนาดใหญ่โดยรวม และคาดว่าหากโมเดลที่คล้ายคลึงกันขยายไปสู่รูปภาพ วิดีโอ และอื่นๆ จะช่วยกระตุ้นความต้องการทั่วทั้งอุตสาหกรรมได้อย่างมาก

โอกาสสำหรับบริการการใช้เหตุผลของบุคคลที่สาม

ข้อมูลระบุว่าตั้งแต่เปิดตัว DeepSeek มีผู้ใช้งานรายวัน (DAU) 22.15 ล้านคนภายในเวลาเพียง 21 วัน คิดเป็น 41.6% ของฐานผู้ใช้ ChatGPT และแซงหน้าผู้ใช้งาน Doubao 16.95 ล้านคนต่อวัน ทำให้กลายเป็นแอปพลิเคชันที่เติบโตเร็วที่สุดในโลก แซงหน้า Apple App Store ใน 157 ประเทศ/ภูมิภาค อย่างไรก็ตาม ในขณะที่ผู้ใช้แห่กันมาเป็นจำนวนมาก แฮกเกอร์ทางไซเบอร์กลับโจมตีแอปพลิเคชัน DeepSeek อย่างไม่ลดละ ทำให้เซิร์ฟเวอร์ของ DeepSeek ทำงานหนักมาก นักวิเคราะห์ในอุตสาหกรรมเชื่อว่าสาเหตุส่วนหนึ่งมาจากการที่ DeepSeek ใช้การ์ดในการฝึกอบรมในขณะที่ขาดพลังการประมวลผลที่เพียงพอสำหรับการให้เหตุผล ผู้เชี่ยวชาญด้านอุตสาหกรรมรายหนึ่งได้แจ้งต่อ AI Technology Review ว่า "ปัญหาเซิร์ฟเวอร์ที่เกิดขึ้นบ่อยครั้งสามารถแก้ไขได้ง่ายๆ ด้วยการเรียกเก็บค่าธรรมเนียมหรือเงินทุนเพื่อซื้อเครื่องเพิ่มเติม ซึ่งท้ายที่สุดแล้วขึ้นอยู่กับการตัดสินใจของ DeepSeek" ซึ่งถือเป็นการแลกเปลี่ยนระหว่างการเน้นที่เทคโนโลยีกับการผลิต DeepSeek พึ่งพาการควอนตัมเป็นส่วนใหญ่เพื่อการดำรงอยู่ของตนเอง โดยได้รับเงินทุนภายนอกเพียงเล็กน้อย ส่งผลให้มีแรงกดดันด้านกระแสเงินสดค่อนข้างต่ำและสภาพแวดล้อมทางเทคโนโลยีที่บริสุทธิ์กว่า ปัจจุบัน เมื่อพิจารณาจากปัญหาที่กล่าวข้างต้น ผู้ใช้บางรายเรียกร้องให้ DeepSeek บนโซเชียลมีเดียเพิ่มเกณฑ์การใช้งานหรือแนะนำฟีเจอร์แบบชำระเงินเพื่อเพิ่มความสะดวกสบายของผู้ใช้ นอกจากนี้ นักพัฒนาได้เริ่มใช้ API อย่างเป็นทางการหรือ API ของบุคคลที่สามเพื่อเพิ่มประสิทธิภาพ อย่างไรก็ตาม แพลตฟอร์มเปิดของ DeepSeek เพิ่งประกาศว่า "ทรัพยากรเซิร์ฟเวอร์ปัจจุบันมีไม่เพียงพอ และการเรียกเก็บเงินบริการ API ถูกระงับ"

สิ่งนี้เปิดโอกาสมากขึ้นสำหรับผู้ขายบุคคลที่สามในภาคส่วนโครงสร้างพื้นฐาน AI เมื่อไม่นานมานี้ ยักษ์ใหญ่ด้านคลาวด์ในประเทศและต่างประเทศจำนวนมากได้เปิดตัว API แบบจำลองของ DeepSeek โดยยักษ์ใหญ่ในต่างประเทศอย่าง Microsoft และ Amazon เป็นกลุ่มแรกๆ ที่เข้าร่วมในช่วงปลายเดือนมกราคม ผู้นำในประเทศอย่าง Huawei Cloud ก้าวเป็นฝ่ายเริ่มก่อนด้วยการเปิดตัวบริการการคิดเหตุผล DeepSeek R1 และ V3 ร่วมกับ Flow ที่ใช้ซิลิคอนเมื่อวันที่ 1 กุมภาพันธ์ รายงานจาก AI Technology Review ระบุว่าบริการของ Flow ที่ใช้ซิลิคอนมีผู้ใช้งานจำนวนมาก ส่งผลให้แพลตฟอร์ม "ล่ม" ลงอย่างมีประสิทธิผล บริษัทเทคโนโลยียักษ์ใหญ่ทั้งสามแห่ง ได้แก่ BAT (Baidu, Alibaba, Tencent) และ ByteDance ยังได้ออกข้อเสนอราคาต่ำในระยะเวลาจำกัดตั้งแต่วันที่ 3 กุมภาพันธ์ ซึ่งชวนให้นึกถึงสงครามราคาของผู้ขายคลาวด์เมื่อปีที่แล้วที่จุดชนวนโดยการเปิดตัวโมเดล V2 ของ DeepSeek ซึ่ง DeepSeek เริ่มถูกขนานนามว่าเป็น "ผู้ทำให้ราคาตก" การดำเนินการอย่างเร่งรีบของผู้จำหน่ายระบบคลาวด์สะท้อนให้เห็นความสัมพันธ์อันแน่นแฟ้นระหว่าง Microsoft Azure และ OpenAI ในอดีต ซึ่งในปี 2019 Microsoft ได้ลงทุนมูลค่า 1 พันล้านดอลลาร์ใน OpenAI และได้รับผลประโยชน์หลังจากเปิดตัว ChatGPT ในปี 2023 อย่างไรก็ตาม ความสัมพันธ์อันแน่นแฟ้นนี้เริ่มสั่นคลอนหลังจาก Meta เปิดตัว Llama ซึ่งเป็นโอเพ่นซอร์ส ทำให้ผู้จำหน่ายรายอื่นนอกระบบนิเวศ Microsoft Azure สามารถแข่งขันกับโมเดลขนาดใหญ่ของตนได้ ในกรณีนี้ DeepSeek ไม่เพียงแต่แซงหน้า ChatGPT ในแง่ของความนิยมในผลิตภัณฑ์เท่านั้น แต่ยังเปิดตัวโมเดลโอเพ่นซอร์สหลังจากเปิดตัว o1 ซึ่งคล้ายกับความตื่นเต้นที่เกิดขึ้นจากการฟื้นคืนชีพ GPT-3 ของ Llama

ในความเป็นจริง ผู้ให้บริการคลาวด์ยังวางตำแหน่งตัวเองเป็นเกตเวย์การรับส่งข้อมูลสำหรับแอปพลิเคชัน AI ซึ่งหมายความว่าการสร้างความสัมพันธ์ที่แน่นแฟ้นกับนักพัฒนาจะส่งผลให้เกิดข้อได้เปรียบเชิงรุก รายงานระบุว่า Baidu Smart Cloud มีลูกค้ามากกว่า 15,000 รายที่ใช้โมเดล DeepSeek ผ่านแพลตฟอร์ม Qianfan ในวันเปิดตัวโมเดล นอกจากนี้ บริษัทขนาดเล็กหลายแห่งยังเสนอโซลูชันต่างๆ รวมถึง Flow ที่ใช้ซิลิคอน, Luchen Technology, Chuanjing Technology และผู้ให้บริการ AI Infra หลายรายที่เปิดตัวการสนับสนุนโมเดล DeepSeek AI Technology Review ได้เรียนรู้ว่าโอกาสในการเพิ่มประสิทธิภาพปัจจุบันสำหรับการใช้งาน DeepSeek เฉพาะพื้นที่นั้นมีอยู่เป็นหลักในสองด้าน: ด้านหนึ่งคือเพิ่มประสิทธิภาพสำหรับลักษณะความเบาบางของโมเดล MoE โดยใช้แนวทางการใช้เหตุผลแบบผสมผสานเพื่อปรับใช้โมเดล MoE ที่มีพารามิเตอร์ 671 พันล้านตัวในพื้นที่ในขณะที่ใช้การอนุมาน GPU/CPU แบบไฮบริด นอกจากนี้ การเพิ่มประสิทธิภาพของ MLA นั้นมีความสำคัญ อย่างไรก็ตาม โมเดลทั้งสองของ DeepSeek ยังคงเผชิญกับความท้าทายบางประการในการเพิ่มประสิทธิภาพการใช้งาน "เนื่องจากขนาดของโมเดลและพารามิเตอร์จำนวนมาก การเพิ่มประสิทธิภาพจึงมีความซับซ้อน โดยเฉพาะอย่างยิ่งสำหรับการใช้งานในพื้นที่ซึ่งการบรรลุสมดุลที่เหมาะสมระหว่างประสิทธิภาพและต้นทุนนั้นเป็นเรื่องท้าทาย" นักวิจัยจาก Chuanjing Technology กล่าว อุปสรรคที่สำคัญที่สุดอยู่ที่การเอาชนะขีดจำกัดความจุหน่วยความจำ "เราใช้แนวทางการทำงานร่วมกันแบบต่างชนิดกันเพื่อใช้ประโยชน์จาก CPU และทรัพยากรการคำนวณอื่นๆ อย่างเต็มที่ โดยวางเฉพาะส่วนที่ไม่ใช้ร่วมกันของเมทริกซ์ MoE แบบเบาบางบน CPU/DRAM สำหรับการประมวลผลโดยใช้ตัวดำเนินการ CPU ประสิทธิภาพสูง ในขณะที่ส่วนที่หนาแน่นจะยังคงอยู่ใน GPU" เขากล่าวอธิบายเพิ่มเติม รายงานระบุว่าเฟรมเวิร์กโอเพ่นซอร์ส KTransformers ของ Chuanjing นั้นใช้กลยุทธ์และตัวดำเนินการต่างๆ เป็นหลักในการใช้งาน Transformers ดั้งเดิมผ่านเทมเพลต ซึ่งช่วยเพิ่มความเร็วในการอนุมานอย่างมีนัยสำคัญโดยใช้เมธอดเช่น CUDAGraph DeepSeek ได้สร้างโอกาสให้กับบริษัทสตาร์ทอัปเหล่านี้ เนื่องจากผลประโยชน์จากการเติบโตเริ่มชัดเจนขึ้น บริษัทหลายแห่งรายงานว่าลูกค้ามีการเติบโตอย่างเห็นได้ชัดหลังจากเปิดตัว DeepSeek API และได้รับคำถามจากลูกค้าก่อนหน้าที่ต้องการเพิ่มประสิทธิภาพ ผู้เชี่ยวชาญในอุตสาหกรรมได้ตั้งข้อสังเกตว่า "ในอดีต กลุ่มลูกค้าที่ก่อตั้งมานานมักจะถูกจำกัดให้ใช้บริการมาตรฐานของบริษัทขนาดใหญ่ ซึ่งถูกผูกมัดอย่างแน่นหนาด้วยข้อได้เปรียบด้านต้นทุนอันเนื่องมาจากขนาด อย่างไรก็ตาม หลังจากที่เสร็จสิ้นการปรับใช้ DeepSeek-R1/V3 ก่อนเทศกาลตรุษจีน เราก็ได้รับคำขอความร่วมมือจากลูกค้าที่มีชื่อเสียงหลายราย และแม้แต่ลูกค้าที่ไม่ได้ใช้งานมาก่อนก็เริ่มติดต่อมาเพื่อแนะนำบริการ DeepSeek ของเรา" ในปัจจุบัน ดูเหมือนว่า DeepSeek กำลังทำให้ประสิทธิภาพการอนุมานโมเดลมีความสำคัญมากขึ้น และเมื่อมีการนำโมเดลขนาดใหญ่มาใช้อย่างแพร่หลายมากขึ้น สิ่งนี้จะยังคงส่งผลต่อการพัฒนาในอุตสาหกรรม AI Infra อย่างมีนัยสำคัญต่อไป หากสามารถนำโมเดลระดับ DeepSeek ไปปรับใช้ในพื้นที่ด้วยต้นทุนต่ำได้ ก็จะช่วยรัฐบาลและองค์กรต่างๆ ในการเปลี่ยนผ่านสู่ระบบดิจิทัลได้อย่างมาก อย่างไรก็ตาม ความท้าทายยังคงมีอยู่ เนื่องจากลูกค้าบางรายอาจมีความคาดหวังสูงเกี่ยวกับความสามารถของโมเดลขนาดใหญ่ ทำให้เห็นได้ชัดเจนว่าการรักษาสมดุลระหว่างประสิทธิภาพและต้นทุนมีความสำคัญอย่างยิ่งในการใช้งานจริง

หากต้องการประเมินว่า DeepSeek ดีกว่า ChatGPT หรือไม่ จำเป็นต้องเข้าใจความแตกต่างที่สำคัญ จุดแข็ง และกรณีการใช้งานของทั้งสองระบบ ต่อไปนี้คือการเปรียบเทียบที่ครอบคลุม:

ลักษณะเด่น/ลักษณะ	ดีพซีค	แชทGPT
ความเป็นเจ้าของ	พัฒนาโดยบริษัทจีน	พัฒนาโดย OpenAI
แบบจำลองแหล่งที่มา	โอเพ่นซอร์ส	กรรมสิทธิ์
ค่าใช้จ่าย	ใช้งานได้ฟรี มีตัวเลือกการเข้าถึง API ที่ถูกกว่า	ราคาการสมัครสมาชิกหรือจ่ายตามการใช้งาน
การปรับแต่ง	ปรับแต่งได้สูง ช่วยให้ผู้ใช้ปรับแต่งและพัฒนาต่อได้	มีการปรับแต่งที่จำกัด
การปฏิบัติงานในงานเฉพาะ	โดดเด่นในบางพื้นที่ เช่น การวิเคราะห์ข้อมูลและการดึงข้อมูล	มีความสามารถรอบด้านและประสิทธิภาพที่แข็งแกร่งในการเขียนเชิงสร้างสรรค์และการสนทนา
การรองรับภาษา	ให้ความสำคัญอย่างมากต่อภาษาและวัฒนธรรมจีน	รองรับภาษาต่างๆ มากมายแต่เน้นที่สหรัฐอเมริกา
ต้นทุนการฝึกอบรม	ต้นทุนการฝึกอบรมที่ต่ำลง ปรับให้เหมาะสมเพื่อประสิทธิภาพ	ต้นทุนการฝึกอบรมที่สูงขึ้น ต้องใช้ทรัพยากรคอมพิวเตอร์จำนวนมาก
การตอบสนองการเปลี่ยนแปลง	อาจให้คำตอบที่แตกต่างกัน ซึ่งอาจได้รับอิทธิพลจากบริบททางภูมิรัฐศาสตร์	คำตอบที่สอดคล้องกันตามข้อมูลการฝึกอบรม
กลุ่มเป้าหมาย	มุ่งเป้าไปที่นักพัฒนาและนักวิจัยที่ต้องการความยืดหยุ่น	มุ่งเป้าไปที่ผู้ใช้ทั่วไปที่มองหาความสามารถในการสนทนา
กรณีการใช้งาน	มีประสิทธิภาพมากขึ้นสำหรับการสร้างรหัสและงานด่วน	เหมาะสำหรับการสร้างข้อความ การตอบคำถาม และการมีส่วนร่วมในบทสนทนา

มุมมองเชิงวิพากษ์วิจารณ์เกี่ยวกับ "การหยุดชะงักของ Nvidia"

ปัจจุบัน นอกจาก Huawei แล้ว ยังมีผู้ผลิตชิปในประเทศหลายราย เช่น Moore Threads, Muxi, Biran Technology และ Tianxu Zhixin ที่กำลังปรับตัวให้เข้ากับโมเดลทั้งสองของ DeepSeek ผู้ผลิตชิปรายหนึ่งบอกกับ AI Technology Review ว่า "โครงสร้างของ DeepSeek แสดงให้เห็นถึงนวัตกรรม แต่ยังคงเป็น LLM การปรับตัวของเราให้เข้ากับ DeepSeek มุ่งเน้นไปที่แอปพลิเคชันการให้เหตุผลเป็นหลัก ทำให้การนำไปใช้ทางเทคนิคค่อนข้างตรงไปตรงมาและรวดเร็ว" อย่างไรก็ตาม แนวทางของกระทรวงศึกษาธิการต้องการความต้องการที่สูงกว่าในแง่ของการจัดเก็บและการจัดจำหน่าย ควบคู่ไปกับการรับรองความเข้ากันได้เมื่อปรับใช้กับชิปในประเทศ ซึ่งนำเสนอความท้าทายทางวิศวกรรมมากมายที่ต้องแก้ไขในระหว่างการปรับตัว "ปัจจุบัน พลังการประมวลผลในประเทศไม่เทียบเท่ากับ Nvidia ในด้านการใช้งานและความเสถียร ต้องใช้การมีส่วนร่วมของโรงงานเดิมในการตั้งค่าสภาพแวดล้อมซอฟต์แวร์ การแก้ไขปัญหา และการเพิ่มประสิทธิภาพพื้นฐาน" ผู้ปฏิบัติงานในอุตสาหกรรมกล่าวโดยอิงจากประสบการณ์จริง ในเวลาเดียวกัน "เนื่องจากขนาดพารามิเตอร์ขนาดใหญ่ของ DeepSeek R1 พลังการประมวลผลในประเทศจึงต้องใช้โหนดเพิ่มเติมสำหรับการประมวลผลแบบขนาน นอกจากนี้ ข้อกำหนดฮาร์ดแวร์ในประเทศยังตามหลังอยู่บ้าง ตัวอย่างเช่น ปัจจุบัน Huawei 910B ไม่สามารถรองรับการอนุมาน FP8 ที่ DeepSeek นำเสนอ" จุดเด่นประการหนึ่งของโมเดล DeepSeek V3 คือการแนะนำกรอบงานการฝึกความแม่นยำแบบผสม FP8 ซึ่งได้รับการตรวจสอบอย่างมีประสิทธิภาพบนโมเดลขนาดใหญ่มาก ซึ่งถือเป็นความสำเร็จที่สำคัญ ก่อนหน้านี้ ผู้เล่นรายใหญ่ เช่น Microsoft และ Nvidia เสนอให้ทำงานที่เกี่ยวข้อง แต่ยังคงมีความสงสัยในอุตสาหกรรมเกี่ยวกับความเป็นไปได้ เป็นที่เข้าใจกันว่าเมื่อเทียบกับ INT8 ข้อได้เปรียบหลักของ FP8 คือการวัดปริมาณหลังการฝึกสามารถบรรลุความแม่นยำที่แทบไม่มีการสูญเสียในขณะที่เพิ่มความเร็วในการอนุมานได้อย่างมาก เมื่อเปรียบเทียบกับ FP16 แล้ว FP8 สามารถเร่งความเร็วได้สูงสุดถึงสองเท่าบน H20 ของ Nvidia และเร่งความเร็วได้มากกว่า 1.5 เท่าบน H100 ที่น่าสังเกตคือ ในขณะที่การอภิปรายเกี่ยวกับแนวโน้มของพลังการประมวลผลในประเทศและโมเดลในประเทศได้รับแรงผลักดัน การคาดเดาว่า Nvidia จะถูกแทนที่หรือไม่ และสามารถข้ามคูน้ำ CUDA ได้หรือไม่ ก็เริ่มแพร่หลายมากขึ้นเรื่อยๆ ข้อเท็จจริงที่ไม่อาจปฏิเสธได้ประการหนึ่งคือ DeepSeek ทำให้มูลค่าตลาดของ Nvidia ลดลงอย่างมาก แต่การเปลี่ยนแปลงนี้ทำให้เกิดคำถามเกี่ยวกับความสมบูรณ์ของพลังการประมวลผลระดับไฮเอนด์ของ Nvidia เรื่องเล่าที่ได้รับการยอมรับก่อนหน้านี้เกี่ยวกับการสะสมการประมวลผลที่ขับเคลื่อนโดยทุนกำลังถูกท้าทาย แต่ยังคงเป็นเรื่องยากสำหรับ Nvidia ที่จะถูกแทนที่อย่างสมบูรณ์ในสถานการณ์การฝึกอบรม การวิเคราะห์การใช้ CUDA อย่างลึกซึ้งของ DeepSeek แสดงให้เห็นว่าความยืดหยุ่น เช่น การใช้ SM สำหรับการสื่อสารหรือการจัดการการ์ดเครือข่ายโดยตรง ไม่สามารถทำได้สำหรับ GPU ทั่วไป มุมมองของอุตสาหกรรมเน้นย้ำว่าคูน้ำของ Nvidia ครอบคลุมระบบนิเวศ CUDA ทั้งหมดมากกว่า CUDA เอง และคำสั่ง PTX (Parallel Thread Execution) ที่ DeepSeek ใช้ยังคงเป็นส่วนหนึ่งของระบบนิเวศ CUDA "ในระยะสั้น พลังการคำนวณของ Nvidia ไม่สามารถถูกข้ามไปได้ ซึ่งเห็นได้ชัดโดยเฉพาะในการฝึกอบรม อย่างไรก็ตาม การใช้การ์ดในประเทศสำหรับการให้เหตุผลจะค่อนข้างง่ายกว่า ดังนั้นความคืบหน้าจึงน่าจะเร็วกว่า การปรับการ์ดในประเทศให้เหมาะสมนั้นมุ่งเน้นไปที่การอนุมานเป็นหลัก ยังไม่มีใครสามารถฝึกโมเดลประสิทธิภาพของ DeepSeek บนการ์ดในประเทศได้ในระดับขนาดใหญ่" นักวิเคราะห์อุตสาหกรรมกล่าวกับ AI Technology Review โดยรวมแล้ว จากมุมมองของการอนุมาน สถานการณ์ต่างๆ ถือเป็นเรื่องดีสำหรับชิปรุ่นใหญ่ในประเทศ โอกาสสำหรับผู้ผลิตชิปในประเทศภายในขอบเขตของการอนุมานนั้นชัดเจนยิ่งขึ้นเนื่องจากข้อกำหนดที่สูงเกินไปในการฝึกอบรม ซึ่งเป็นอุปสรรคต่อการเข้าถึง นักวิเคราะห์โต้แย้งว่าการใช้การ์ดอนุมานในประเทศเพียงอย่างเดียวก็เพียงพอแล้ว หากจำเป็น การจัดหาเครื่องเพิ่มเติมก็เป็นไปได้ ในขณะที่โมเดลการฝึกอบรมนั้นสร้างความท้าทายที่ไม่เหมือนใคร การจัดการเครื่องที่เพิ่มมากขึ้นอาจกลายเป็นภาระ และอัตราข้อผิดพลาดที่สูงขึ้นอาจส่งผลกระทบเชิงลบต่อผลลัพธ์ในการฝึกอบรม การฝึกอบรมยังมีข้อกำหนดขนาดคลัสเตอร์ที่เฉพาะเจาะจง ในขณะที่ความต้องการคลัสเตอร์สำหรับการอนุมานนั้นไม่เข้มงวดมากนัก จึงทำให้ข้อกำหนดของ GPU ผ่อนปรนลง ปัจจุบัน ประสิทธิภาพของการ์ด H20 ตัวเดียวของ Nvidia ไม่ได้เหนือกว่า Huawei หรือ Cambrian จุดแข็งของการ์ดอยู่ที่การจัดคลัสเตอร์ จากผลกระทบโดยรวมต่อตลาดพลังงานในการคำนวณ You Yang ผู้ก่อตั้ง Luchen Technology กล่าวในการสัมภาษณ์กับ AI Technology Review ว่า "DeepSeek อาจทำลายการจัดตั้งและการเช่าคลัสเตอร์การคำนวณขนาดใหญ่พิเศษชั่วคราว ในระยะยาว โดยการลดต้นทุนที่เกี่ยวข้องกับการฝึกโมเดลขนาดใหญ่ การให้เหตุผล และการใช้งานอย่างมาก ความต้องการของตลาดมีแนวโน้มที่จะเพิ่มขึ้น การทำซ้ำของ AI ในภายหลังตามนี้จะขับเคลื่อนความต้องการอย่างต่อเนื่องในตลาดพลังงานในการคำนวณ" นอกจากนี้ "ความต้องการบริการการให้เหตุผลและปรับแต่งที่เพิ่มมากขึ้นของ DeepSeek นั้นเข้ากันได้ดีกับระบบคอมพิวเตอร์ในประเทศ ซึ่งขีดความสามารถในท้องถิ่นค่อนข้างอ่อนแอ ช่วยลดการสูญเสียทรัพยากรที่ไม่ได้ใช้งานหลังจากการสร้างคลัสเตอร์ ซึ่งสร้างโอกาสที่เป็นไปได้สำหรับผู้ผลิตในระดับต่างๆ ของระบบนิเวศคอมพิวเตอร์ในประเทศ" Luchen Technology ได้ร่วมมือกับ Huawei Cloud เพื่อเปิดตัว API การให้เหตุผลซีรีส์ DeepSeek R1 และบริการการสร้างภาพบนคลาวด์ที่ใช้พลังการประมวลผลในประเทศ You Yang แสดงความหวังเกี่ยวกับอนาคต: "DeepSeek ปลูกฝังความเชื่อมั่นในโซลูชันที่ผลิตในประเทศ กระตุ้นให้เกิดความกระตือรือร้นและการลงทุนในศักยภาพการประมวลผลในประเทศมากขึ้นในอนาคต"

บทสรุป

DeepSeek จะ "ดีกว่า" ChatGPT หรือไม่นั้นขึ้นอยู่กับความต้องการและวัตถุประสงค์เฉพาะของผู้ใช้ สำหรับงานที่ต้องการความยืดหยุ่น ต้นทุนต่ำ และการปรับแต่ง DeepSeek อาจเหนือกว่า สำหรับการเขียนเชิงสร้างสรรค์ การสอบถามทั่วไป และอินเทอร์เฟซการสนทนาที่เป็นมิตรกับผู้ใช้ ChatGPT อาจเป็นผู้นำ เครื่องมือแต่ละอย่างมีวัตถุประสงค์ต่างกัน ดังนั้นการเลือกจึงขึ้นอยู่กับบริบทในการใช้งานเป็นอย่างมาก

ค้นหาโซลูชันสายเคเบิล ELV

สายควบคุม

สำหรับ BMS, BUS, อุตสาหกรรม, สายเครื่องมือวัด

คลิกที่นี่

ระบบเดินสายแบบมีโครงสร้าง

เครือข่ายและข้อมูล, สายไฟเบอร์ออปติก, สายแพทช์, โมดูล, แผงหน้าปัด

คลิกที่นี่

บทวิจารณ์งานนิทรรศการและกิจกรรมประจำปี 2024

เวลาโพสต์ : 10 ก.พ. 2568

DeepSeek: นวัตกรรมที่ปฏิวัติภูมิทัศน์ของ AI

การแนะนำ

โอกาสสำหรับบริการการใช้เหตุผลของบุคคลที่สาม

มุมมองเชิงวิพากษ์วิจารณ์เกี่ยวกับ "การหยุดชะงักของ Nvidia"

บทสรุป

สายควบคุม

ระบบเดินสายแบบมีโครงสร้าง

16-18 เมษายน 2567 พลังงานตะวันออกกลางในดูไบ

16-18 เมษายน 2024 Securika ในมอสโก

งานเปิดตัวผลิตภัณฑ์และเทคโนโลยีใหม่ในวันที่ 9 พฤษภาคม 2024 ในเซี่ยงไฮ้

วันที่ 22-25 ตุลาคม 2024 งาน SECURITY CHINA ณ ปักกิ่ง

19-20 พฤศจิกายน 2024 CONNECTED WORLD KSA