Deepseek: การก่อกวนหนึ่งปฏิวัติภูมิทัศน์ AI

กลุ่ม AIPU WATON

การแนะนำ

ความวิตกกังวลอย่างต่อเนื่องระหว่างการแข่งขันแบบจำลองขนาดใหญ่ผู้ให้บริการคลาวด์ที่แข่งขันกันเพื่อแบ่งส่วนแบ่งการตลาดและผู้ผลิตชิปที่ทำงานหนัก - เอฟเฟกต์ลึกยังคงมีอยู่

เมื่อเทศกาลฤดูใบไม้ผลิใกล้เข้ามาความตื่นเต้นรอบ ๆ Deepseek ยังคงแข็งแกร่ง วันหยุดที่ผ่านมาได้เน้นถึงความรู้สึกที่สำคัญของการแข่งขันในอุตสาหกรรมเทคโนโลยีโดยมีการพูดคุยและวิเคราะห์ "ปลาดุก" มากมาย Silicon Valley กำลังประสบกับวิกฤตที่ไม่เคยเกิดขึ้นมาก่อน: ผู้สนับสนุนโอเพนซอร์ซกำลังแสดงความคิดเห็นของพวกเขาอีกครั้งและแม้แต่ Openai ก็ประเมินใหม่ว่ากลยุทธ์ปิดแหล่งข้อมูลเป็นตัวเลือกที่ดีที่สุดหรือไม่ กระบวนทัศน์ใหม่ของค่าใช้จ่ายในการคำนวณที่ต่ำกว่าได้ก่อให้เกิดปฏิกิริยาลูกโซ่ในหมู่ยักษ์ใหญ่ชิปเช่น Nvidia ซึ่งนำไปสู่การบันทึกการสูญเสียมูลค่าตลาดในวันเดียวในประวัติศาสตร์การตลาดหุ้นสหรัฐในขณะที่หน่วยงานของรัฐกำลังตรวจสอบการปฏิบัติตามชิปที่ใช้โดย Deepseek ท่ามกลางความคิดเห็นที่หลากหลายของ Deepseek ในต่างประเทศในประเทศมันกำลังประสบกับการเติบโตที่ไม่ธรรมดา หลังจากการเปิดตัวโมเดล R1 แอพที่เกี่ยวข้องได้เห็นการจราจรเพิ่มขึ้นซึ่งบ่งชี้ว่าการเติบโตของภาคแอปพลิเคชันจะผลักดันระบบนิเวศ AI โดยรวมไปข้างหน้า แง่มุมที่ดีคือ Deepseek จะขยายความเป็นไปได้ในการใช้งานโดยบอกว่าการพึ่งพา CHATGPT จะไม่แพงในอนาคต การเปลี่ยนแปลงนี้สะท้อนให้เห็นในกิจกรรมล่าสุดของ Openai รวมถึงการจัดหารูปแบบการให้เหตุผลที่เรียกว่า O3-Mini ให้กับผู้ใช้ฟรีในการตอบสนองต่อ Deepseek R1 รวมถึงการอัพเกรดที่ตามมาซึ่งทำให้ห่วงโซ่ความคิดของ O3-Mini สาธารณะ ผู้ใช้ในต่างประเทศหลายคนแสดงความขอบคุณต่อ Deepseek สำหรับการพัฒนาเหล่านี้แม้ว่าห่วงโซ่ความคิดนี้ทำหน้าที่เป็นบทสรุป

ในแง่ดีเห็นได้ชัดว่า Deepseek กำลังรวมผู้เล่นในประเทศ ด้วยการมุ่งเน้นไปที่การลดค่าใช้จ่ายในการฝึกอบรมผู้ผลิตชิปต้นน้ำหลายรายผู้ให้บริการคลาวด์ระดับกลางและ บริษัท สตาร์ทอัพจำนวนมากกำลังเข้าร่วมระบบนิเวศอย่างแข็งขันเพิ่มประสิทธิภาพต้นทุนสำหรับการใช้แบบจำลอง Deepseek จากเอกสารของ Deepseek การฝึกอบรมที่สมบูรณ์ของโมเดล V3 ต้องใช้เวลาเพียง 2.788 ล้าน H800 GPU และกระบวนการฝึกอบรมมีความเสถียรสูง สถาปัตยกรรม MOE (ส่วนผสมของผู้เชี่ยวชาญ) เป็นสิ่งสำคัญสำหรับการลดค่าใช้จ่ายก่อนการฝึกอบรมโดยปัจจัยสิบเท่าเมื่อเทียบกับ Llama 3 ด้วยพารามิเตอร์ 405 พันล้าน ปัจจุบัน V3 เป็นรูปแบบที่ได้รับการยอมรับจากสาธารณชนครั้งแรกที่แสดงให้เห็นถึงความกระจ่างสูงเช่นนี้ใน MOE นอกจากนี้ MLA (ความสนใจหลายชั้น) ทำงานร่วมกันโดยเฉพาะอย่างยิ่งในด้านการใช้เหตุผล "ยิ่ง moe มีขนาดใหญ่ขึ้นขนาดแบทช์ที่จำเป็นในระหว่างการให้เหตุผลเพื่อใช้พลังงานการคำนวณอย่างเต็มที่โดยมีขนาดของ kvcache เป็นปัจจัย จำกัด ที่สำคัญ; MLA ลดขนาด kvcache อย่างมีนัยสำคัญ" นักวิจัยจากเทคโนโลยี Chuanjing ในการวิเคราะห์การทบทวนเทคโนโลยี AI โดยรวมแล้วความสำเร็จของ Deepseek นั้นอยู่ในการผสมผสานของเทคโนโลยีต่าง ๆ ไม่ใช่แค่หนึ่งเดียว คนวงในอุตสาหกรรมยกย่องความสามารถทางวิศวกรรมของทีม Deepseek โดยสังเกตความเป็นเลิศในการฝึกอบรมและการเพิ่มประสิทธิภาพของผู้ประกอบการเพื่อให้ได้ผลลัพธ์ที่ก้าวล้ำโดยการปรับแต่งทุกรายละเอียด วิธีการโอเพนซอร์สของ Deepseek ช่วยกระตุ้นการพัฒนาโดยรวมของโมเดลขนาดใหญ่และคาดว่าหากรุ่นที่คล้ายกันขยายไปสู่ภาพวิดีโอและอื่น ๆ สิ่งนี้จะกระตุ้นความต้องการทั่วทั้งอุตสาหกรรมอย่างมีนัยสำคัญ

โอกาสสำหรับบริการให้เหตุผลของบุคคลที่สาม

ข้อมูลบ่งชี้ว่าตั้งแต่การเปิดตัว Deepseek ได้เพิ่มขึ้น 22.15 ล้านคนต่อวันผู้ใช้งาน (DAU) ภายในเวลาเพียง 21 วันบรรลุฐานผู้ใช้ของ Chatgpt 41.6% และมีผู้ใช้งานที่ใช้งานอยู่ 16.95 ล้านคนต่อวัน อย่างไรก็ตามในขณะที่ผู้ใช้แห่กันเป็นกลุ่มแฮ็กเกอร์ไซเบอร์ได้โจมตีแอพ Deepseek อย่างไม่ลดละทำให้เกิดความเครียดอย่างมากต่อเซิร์ฟเวอร์ นักวิเคราะห์อุตสาหกรรมเชื่อว่านี่เป็นบางส่วนเนื่องจากการปรับใช้บัตรลึกสำหรับการฝึกอบรมในขณะที่ขาดพลังการคำนวณที่เพียงพอสำหรับการให้เหตุผล Industry Insider แจ้งการทบทวนเทคโนโลยี AI ว่า "ปัญหาเซิร์ฟเวอร์บ่อยครั้งสามารถแก้ไขได้อย่างง่ายดายโดยการเรียกเก็บค่าธรรมเนียมหรือการจัดหาเงินทุนเพื่อซื้อเครื่องจักรมากขึ้นในที่สุดก็ขึ้นอยู่กับการตัดสินใจของ Deepseek" สิ่งนี้นำเสนอการแลกเปลี่ยนในการมุ่งเน้นไปที่เทคโนโลยีและการผลิต Deepseek ได้พึ่งพาปริมาณควอนตัมเป็นส่วนใหญ่สำหรับการรักษาความยั่งยืนโดยได้รับเงินทุนภายนอกเพียงเล็กน้อยส่งผลให้เกิดแรงดันกระแสเงินสดค่อนข้างต่ำและสภาพแวดล้อมทางเทคโนโลยีที่บริสุทธิ์ ขณะนี้ในแง่ของปัญหาดังกล่าวผู้ใช้บางคนกำลังเรียกร้องให้ Deepseek บนโซเชียลมีเดียเพื่อยกระดับเกณฑ์การใช้งานหรือแนะนำคุณสมบัติที่ต้องชำระเงินเพื่อเพิ่มความสะดวกสบายของผู้ใช้ นอกจากนี้นักพัฒนาได้เริ่มใช้ API อย่างเป็นทางการหรือ API ของบุคคลที่สามเพื่อเพิ่มประสิทธิภาพ อย่างไรก็ตามแพลตฟอร์ม Open ของ Deepseek ประกาศเมื่อเร็ว ๆ นี้ว่า "ทรัพยากรเซิร์ฟเวอร์ปัจจุบันหายากและการชาร์จบริการ API ได้ถูกระงับ"

 

สิ่งนี้ไม่ต้องสงสัยเลยว่าโอกาสมากขึ้นสำหรับผู้ขายบุคคลที่สามในภาคโครงสร้างพื้นฐาน AI เมื่อเร็ว ๆ นี้ยักษ์ใหญ่ในประเทศและระหว่างประเทศจำนวนมากได้เปิดตัว API แบบจำลองของ Deepseek ซึ่งเป็นยักษ์ใหญ่ด้านยักษ์ใหญ่ Microsoft และ Amazon เป็นหนึ่งในคนแรกที่เข้าร่วมเมื่อปลายเดือนมกราคม Huawei Cloud ผู้นำในประเทศได้ทำการย้ายครั้งแรกปล่อยบริการให้เหตุผลด้านการให้เหตุผล Deepseek R1 และ V3 โดยความร่วมมือกับการไหลของซิลิคอนในวันที่ 1 กุมภาพันธ์รายงานจากการทบทวนเทคโนโลยี AI ระบุว่าบริการของ Flow ที่ใช้ซิลิคอนได้เห็นการไหลเข้าของผู้ใช้อย่างมีประสิทธิภาพ บริษัท เทคโนโลยีขนาดใหญ่สามแห่ง ได้แก่ แบท (Baidu, Alibaba, Tencent) และ BATTEDANCE-นอกจากนี้ยังออกข้อเสนอที่มีต้นทุนต่ำและมีราคา จำกัด ตั้งแต่วันที่ 3 กุมภาพันธ์ชวนให้นึกถึงสงครามราคาผู้ขายคลาวด์เมื่อปีที่แล้ว การกระทำที่น่าตื่นเต้นของผู้ขายคลาวด์สะท้อนความสัมพันธ์ที่แข็งแกร่งก่อนหน้านี้ระหว่าง Microsoft Azure และ Openai ซึ่งในปี 2562 Microsoft ได้ลงทุน 1 พันล้านเหรียญสหรัฐใน Openai และได้รับผลประโยชน์หลังจากเปิดตัว Chatgpt ในปี 2566 ในกรณีนี้ Deepseek ไม่เพียง แต่เกินกว่า CHATGPT ในแง่ของความร้อนของผลิตภัณฑ์ แต่ยังได้แนะนำรุ่นโอเพนซอร์ซหลังจากการเปิดตัว O1 ซึ่งคล้ายกับความตื่นเต้นรอบการฟื้นฟู GPT-3 ของ Llama

 

ในความเป็นจริงผู้ให้บริการคลาวด์ยังวางตำแหน่งตัวเองเป็นเกตเวย์การจราจรสำหรับแอพพลิเคชั่น AI ซึ่งหมายความว่าความสัมพันธ์ที่ลึกซึ้งยิ่งขึ้นกับนักพัฒนานั้นแปลเป็นข้อได้เปรียบก่อน รายงานระบุว่า Baidu Smart Cloud มีลูกค้ามากกว่า 15,000 รายที่ใช้โมเดล Deepseek ผ่านแพลตฟอร์ม Qianfan ในวันเปิดตัวของรุ่น นอกจากนี้ บริษัท ขนาดเล็กหลายแห่งยังนำเสนอโซลูชั่นรวมถึงการไหลของซิลิคอนเทคโนโลยี Luchen เทคโนโลยี Chuanjing และผู้ให้บริการ AI Infra ต่างๆที่เปิดตัวการสนับสนุนสำหรับรุ่น Deepseek การทบทวนเทคโนโลยี AI ได้เรียนรู้ว่าโอกาสในการเพิ่มประสิทธิภาพในปัจจุบันสำหรับการปรับใช้ของ Deepseek เป็นหลักในสองพื้นที่: หนึ่งกำลังปรับให้เหมาะสมสำหรับลักษณะ Sparsity ของโมเดล MOE โดยใช้วิธีการให้เหตุผลแบบผสมเพื่อปรับใช้โมเดล MOE 671 พันล้านตัวในพื้นที่ นอกจากนี้การเพิ่มประสิทธิภาพของ MLA นั้นมีความสำคัญ อย่างไรก็ตามสองรุ่นของ Deepseek ยังคงเผชิญกับความท้าทายในการปรับใช้การปรับใช้ “ เนื่องจากขนาดของโมเดลและพารามิเตอร์มากมายการเพิ่มประสิทธิภาพจึงมีความซับซ้อนโดยเฉพาะอย่างยิ่งสำหรับการปรับใช้ในท้องถิ่นซึ่งการบรรลุความสมดุลที่เหมาะสมระหว่างประสิทธิภาพและค่าใช้จ่ายจะเป็นสิ่งที่ท้าทาย” นักวิจัยจากเทคโนโลยี Chuanjing กล่าว อุปสรรค์ที่สำคัญที่สุดอยู่ในการเอาชนะขีดจำกัดความจุของหน่วยความจำ "เราใช้วิธีการทำงานร่วมกันที่แตกต่างกันเพื่อใช้ประโยชน์จากซีพียูและทรัพยากรการคำนวณอื่น ๆ อย่างเต็มที่โดยวางเฉพาะส่วนที่ไม่ใช่ส่วนแบ่งของเมทริกซ์ MOE แบบเบาบางใน CPU/DRAM สำหรับการประมวลผลโดยใช้ผู้ให้บริการ CPU ที่มีประสิทธิภาพสูงในขณะที่ส่วนที่หนาแน่นอยู่บน GPU" เขาอธิบายเพิ่มเติม รายงานระบุว่าเฟรมเวิร์กโอเพ่นซอร์สของ Chuanjing Ktransformers เป็นหลักฉีดกลยุทธ์และตัวดำเนินการต่าง ๆ เข้าสู่การใช้งาน Transformers ดั้งเดิมผ่านเทมเพลตการเพิ่มความเร็วในการอนุมานอย่างมีนัยสำคัญโดยใช้วิธีการเช่น cudagraph Deepseek ได้สร้างโอกาสสำหรับการเริ่มต้นเหล่านี้เนื่องจากผลประโยชน์การเติบโตกำลังชัดเจน บริษัท หลายแห่งได้รายงานการเติบโตของลูกค้าที่เห็นได้ชัดเจนหลังจากเปิดตัว Deepseek API โดยได้รับการสอบถามจากลูกค้าก่อนหน้านี้ที่กำลังมองหาการเพิ่มประสิทธิภาพ คนวงในอุตสาหกรรมได้ตั้งข้อสังเกตว่า "ในอดีตกลุ่มลูกค้าที่ค่อนข้างเป็นที่ยอมรับมักถูกล็อคไว้ในบริการที่ได้มาตรฐานของ บริษัท ขนาดใหญ่ซึ่งผูกพันกับข้อได้เปรียบด้านต้นทุนของพวกเขาอย่างแน่นหนาอย่างไรก็ตามหลังจากเสร็จสิ้นการปรับใช้ Deepseek-R1/V3 ก่อนเทศกาลฤดูใบไม้ผลิ ปัจจุบันปรากฏว่า Deepseek กำลังสร้างประสิทธิภาพการอนุมานแบบจำลองที่สำคัญยิ่งขึ้นและด้วยการยอมรับแบบจำลองขนาดใหญ่ที่กว้างขึ้นสิ่งนี้จะยังคงมีอิทธิพลต่อการพัฒนาในอุตสาหกรรม AI Infra อย่างมีนัยสำคัญ หากรูปแบบระดับลึกสามารถนำไปใช้งานได้ในท้องถิ่นด้วยต้นทุนที่ต่ำมันจะช่วยรัฐบาลและความพยายามในการเปลี่ยนแปลงระบบดิจิตอลขององค์กรอย่างมาก อย่างไรก็ตามความท้าทายยังคงมีอยู่เนื่องจากลูกค้าบางรายอาจมีความคาดหวังสูงเกี่ยวกับความสามารถของโมเดลขนาดใหญ่ทำให้ชัดเจนยิ่งขึ้นว่าประสิทธิภาพและค่าใช้จ่ายที่สมดุลกลายเป็นสิ่งสำคัญในการปรับใช้ในทางปฏิบัติ 

ในการประเมินว่า Deepseek ดีกว่า CHATGPT หรือไม่การเข้าใจความแตกต่างที่สำคัญจุดแข็งและกรณีการใช้งาน นี่คือการเปรียบเทียบที่ครอบคลุม:

คุณสมบัติ/แง่มุม ลึกล้ำ CHATGPT
ความเป็นเจ้าของ พัฒนาโดย บริษัท จีน พัฒนาโดย openai
รุ่นต้นทาง โอเพ่นซอร์ส เป็นกรรมสิทธิ์
ค่าใช้จ่าย ใช้งานฟรี ตัวเลือกการเข้าถึง API ที่ถูกกว่า ราคาสมัครสมาชิกหรือการจ่ายต่อการใช้งาน
การปรับแต่ง ปรับแต่งได้สูงช่วยให้ผู้ใช้สามารถปรับแต่งและสร้างมันขึ้นมาได้ มีการปรับแต่งที่ จำกัด
ประสิทธิภาพในงานเฉพาะ เก่งในบางพื้นที่เช่นการวิเคราะห์ข้อมูลและการดึงข้อมูล หลากหลายด้วยประสิทธิภาพที่แข็งแกร่งในการเขียนเชิงสร้างสรรค์และงานสนทนา
การสนับสนุนภาษา มุ่งเน้นไปที่ภาษาและวัฒนธรรมจีน การสนับสนุนภาษาในวงกว้าง แต่เป็นศูนย์กลางของสหรัฐอเมริกา
ค่าใช้จ่ายในการฝึกอบรม ลดค่าใช้จ่ายในการฝึกอบรมที่ปรับให้เหมาะสมเพื่อประสิทธิภาพ ค่าใช้จ่ายในการฝึกอบรมที่สูงขึ้นซึ่งต้องการทรัพยากรการคำนวณจำนวนมาก
การเปลี่ยนแปลงการเปลี่ยนแปลง อาจเสนอการตอบกลับที่แตกต่างกันอาจได้รับอิทธิพลจากบริบททางการเมือง คำตอบที่สอดคล้องกันตามข้อมูลการฝึกอบรม
กลุ่มเป้าหมาย มุ่งเป้าไปที่นักพัฒนาและนักวิจัยที่ต้องการความยืดหยุ่น มุ่งเป้าไปที่ผู้ใช้ทั่วไปที่กำลังมองหาความสามารถในการสนทนา
ใช้เคส มีประสิทธิภาพมากขึ้นสำหรับการสร้างรหัสและงานที่รวดเร็ว เหมาะสำหรับการสร้างข้อความตอบคำถามและการมีส่วนร่วมในการสนทนา

มุมมองที่สำคัญเกี่ยวกับ "รบกวน Nvidia"

ในปัจจุบันนอกเหนือจาก Huawei ผู้ผลิตชิปในประเทศหลายรายเช่น Moore Threads, Muxi, Biran Technology และ Tianxu Zhixin ก็ปรับตัวเข้ากับสองรุ่นของ Deepseek ผู้ผลิตชิปบอกกับ AI Technology Review ว่า "โครงสร้างของ Deepseek แสดงให้เห็นถึงนวัตกรรม แต่ก็ยังคงเป็น LLM การปรับตัวของเราให้กับ Deepseek นั้นมุ่งเน้นไปที่การใช้งานที่ให้เหตุผลทำให้การใช้งานทางเทคนิคค่อนข้างตรงไปตรงมาและรวดเร็ว" อย่างไรก็ตามวิธีการ MOE ต้องการความต้องการที่สูงขึ้นในแง่ของการจัดเก็บและการจัดจำหน่ายควบคู่ไปกับการสร้างความมั่นใจในความเข้ากันได้เมื่อปรับใช้กับชิปในประเทศนำเสนอความท้าทายทางวิศวกรรมจำนวนมากที่ต้องการการแก้ไขในระหว่างการปรับตัว "ในปัจจุบันพลังการคำนวณภายในประเทศไม่ตรงกับ NVIDIA ในการใช้งานและความเสถียรซึ่งต้องมีการมีส่วนร่วมจากโรงงานดั้งเดิมสำหรับการตั้งค่าสภาพแวดล้อมซอฟต์แวร์การแก้ไขปัญหาและการเพิ่มประสิทธิภาพประสิทธิภาพพื้นฐาน" ในขณะเดียวกัน "เนื่องจากสเกลพารามิเตอร์ขนาดใหญ่ของ Deepseek R1 พลังการคำนวณภายในประเทศจำเป็นต้องมีโหนดมากขึ้นสำหรับการขนานนอกจากนี้ข้อกำหนดฮาร์ดแวร์ในประเทศยังคงค่อนข้างอยู่ข้างหลังตัวอย่างเช่น Huawei 910b ไม่สามารถรองรับการอนุมาน FP8 ที่แนะนำโดย Deepseek" หนึ่งในไฮไลท์ของโมเดล Deepseek V3 คือการเปิดตัวกรอบการฝึกอบรมความแม่นยำแบบผสม FP8 ซึ่งได้รับการตรวจสอบอย่างมีประสิทธิภาพในรูปแบบที่มีขนาดใหญ่มากซึ่งเป็นความสำเร็จที่สำคัญ ก่อนหน้านี้ผู้เล่นรายใหญ่เช่น Microsoft และ Nvidia แนะนำงานที่เกี่ยวข้อง แต่สงสัยว่าอยู่ในอุตสาหกรรมเกี่ยวกับความเป็นไปได้ เป็นที่เข้าใจกันว่าเมื่อเปรียบเทียบกับ INT8 ข้อได้เปรียบหลักของ FP8 คือการหาปริมาณหลังการฝึกอบรมสามารถบรรลุความแม่นยำเกือบสูญเสียในขณะที่เพิ่มความเร็วในการอนุมานอย่างมีนัยสำคัญ เมื่อเปรียบเทียบกับ FP16 FP8 สามารถตระหนักถึงการเร่งความเร็วสูงสุดสองเท่าของ H20 ของ NVIDIA และการเร่งความเร็วมากกว่า 1.5 เท่าใน H100 โดยเฉพาะอย่างยิ่งเมื่อการอภิปรายเกี่ยวกับแนวโน้มของพลังการคำนวณภายในประเทศรวมทั้งแบบจำลองในประเทศได้รับแรงผลักดันการเก็งกำไรว่า Nvidia อาจถูกรบกวนหรือไม่และไม่ว่าจะผ่าน Cuda Moat หรือไม่ ข้อเท็จจริงที่ปฏิเสธไม่ได้อย่างหนึ่งคือ Deepseek ได้ทำให้มูลค่าตลาดของ Nvidia ลดลงอย่างมาก แต่การเปลี่ยนแปลงนี้ทำให้เกิดคำถามเกี่ยวกับความสมบูรณ์ของพลังงานการคำนวณระดับสูงของ Nvidia เรื่องเล่าที่ได้รับการยอมรับก่อนหน้านี้เกี่ยวกับการสะสมการคำนวณที่ขับเคลื่อนด้วยเงินทุนกำลังถูกท้าทาย แต่ก็ยังคงเป็นเรื่องยากสำหรับ Nvidia ที่จะถูกแทนที่อย่างเต็มที่ในสถานการณ์การฝึกอบรม การวิเคราะห์การใช้ CUDA ลึกของ Deepseek แสดงให้เห็นว่าความยืดหยุ่นเช่นการใช้ SM สำหรับการสื่อสารหรือจัดการการ์ดเครือข่ายโดยตรง - เป็นไปไม่ได้สำหรับ GPU ทั่วไปเพื่อรองรับ มุมมองของอุตสาหกรรมเน้นว่าคูเมืองของ Nvidia ครอบคลุมระบบนิเวศของ CUDA ทั้งหมดมากกว่าแค่ CUDA เองและคำแนะนำ PTX (การดำเนินการเธรดแบบขนาน) ที่ DeepSeek ใช้เป็นส่วนหนึ่งของระบบนิเวศ CUDA "ในระยะสั้นพลังการคำนวณของ Nvidia ไม่สามารถข้ามได้ - นี่เป็นสิ่งที่ชัดเจนโดยเฉพาะอย่างยิ่งในการฝึกอบรมอย่างไรก็ตามการปรับใช้บัตรในประเทศเพื่อการใช้เหตุผลจะค่อนข้างง่ายดังนั้นความคืบหน้าจะเร็วขึ้นการปรับตัวของการ์ดในประเทศที่มุ่งเน้นไปที่การอนุมาน โดยรวมจากมุมมองการอนุมานสถานการณ์กำลังส่งเสริมให้ชิปโมเดลขนาดใหญ่ในประเทศ โอกาสสำหรับผู้ผลิตชิปในประเทศภายในขอบเขตของการอนุมานนั้นชัดเจนมากขึ้นเนื่องจากความต้องการที่สูงเกินไปของการฝึกอบรมซึ่งขัดขวางการเข้ามา นักวิเคราะห์ยืนยันว่าเพียงแค่ควบคุมบัตรอนุมานในประเทศที่เพียงพอ หากจำเป็นการได้รับเครื่องเพิ่มเติมเป็นไปได้ในขณะที่รูปแบบการฝึกอบรมมีความท้าทายที่ไม่เหมือนใคร - การจัดการจำนวนเครื่องจักรที่เพิ่มขึ้นอาจกลายเป็นภาระและอัตราความผิดพลาดที่สูงขึ้นอาจส่งผลเสียต่อผลการฝึกอบรม การฝึกอบรมยังมีข้อกำหนดระดับคลัสเตอร์ที่เฉพาะเจาะจงในขณะที่ความต้องการกลุ่มสำหรับการอนุมานนั้นไม่เข้มงวดมากนักดังนั้นจึงช่วยลดข้อกำหนดของ GPU ปัจจุบันประสิทธิภาพของการ์ด H20 เดียวของ Nvidia ไม่เกินกว่าของ Huawei หรือ Cambrian; ความแข็งแรงของมันอยู่ในการจัดกลุ่ม จากผลกระทบโดยรวมในตลาดพลังงานการคำนวณผู้ก่อตั้ง Luchen Technology You Yang กล่าวในการสัมภาษณ์กับการทบทวนเทคโนโลยี AI "Deepseek อาจบ่อนทำลายการจัดตั้งและการเช่าการฝึกอบรมที่มีขนาดใหญ่เป็นพิเศษ ความต้องการในตลาดพลังงานการคำนวณ " นอกจากนี้ "ความต้องการที่เพิ่มสูงขึ้นของ Deepseek สำหรับการให้เหตุผลและบริการปรับแต่งนั้นเข้ากันได้กับภูมิทัศน์การคำนวณภายในประเทศมากขึ้นซึ่งความสามารถในท้องถิ่นนั้นค่อนข้างอ่อนแอช่วยลดของเสียจากแหล่งข้อมูลที่ไม่ได้ใช้งานหลังคลัสเตอร์ Luchen Technology ได้ร่วมมือกับ Huawei Cloud เพื่อเปิดตัว Deepseek R1 Series APIs และบริการการถ่ายภาพคลาวด์ตามพลังการคำนวณภายในประเทศ คุณหยางแสดงการมองโลกในแง่ดีเกี่ยวกับอนาคต: "Deepseek ปลูกฝังความเชื่อมั่นในการแก้ปัญหาที่ผลิตในประเทศกระตุ้นให้เกิดความกระตือรือร้นและการลงทุนในความสามารถในการคำนวณในประเทศที่มากขึ้น"

微信图片 _20240614024031.jpg1

บทสรุป

ไม่ว่า Deepseek จะ "ดีกว่า" กว่า Chatgpt ขึ้นอยู่กับความต้องการและวัตถุประสงค์เฉพาะของผู้ใช้ สำหรับงานที่ต้องการความยืดหยุ่นต้นทุนต่ำและการปรับแต่ง Deepseek อาจเหนือกว่า สำหรับการเขียนเชิงสร้างสรรค์การสอบถามทั่วไปและอินเทอร์เฟซการสนทนาที่ใช้งานง่าย ChatGPT อาจเป็นผู้นำ เครื่องมือแต่ละตัวมีวัตถุประสงค์ที่แตกต่างกันดังนั้นตัวเลือกจะขึ้นอยู่กับบริบทที่ใช้อย่างมาก

ค้นหาโซลูชันสายเคเบิล ELV

สายเคเบิลควบคุม

สำหรับ BMS, บัส, อุตสาหกรรม, สายเคเบิลเครื่องมือวัด

ระบบสายเคเบิลที่มีโครงสร้าง

เครือข่ายและข้อมูลสายเคเบิลไฟเบอร์ออปติกสายแพทช์โมดูลหน้าเว็บ

รีวิวนิทรรศการและกิจกรรม 2024

เม.ย. 16th-18, 2024 Middle-East-Energy ในดูไบ

เม.ย. 16th-18, 2024 Securika ในมอสโก

พฤษภาคม 9, 2024 กิจกรรมเปิดตัวผลิตภัณฑ์และเทคโนโลยีใหม่ในเซี่ยงไฮ้

ตุลาคม 22nd-25th, 2024 ความปลอดภัยจีนในปักกิ่ง

พ.ย. 19-20, 2024 World Connected KSA


เวลาโพสต์: ก.พ.-10-2025