ทดสอบ Grok3 “ที่ฉลาดที่สุดในโลก”

กลุ่มบริษัทไอปู วาตัน (1)

การแนะนำ

คุณคิดว่า Grok3 จะเป็น "จุดสิ้นสุด" ของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้าหรือไม่

อีลอน มัสก์และทีมงาน xAI ได้เปิดตัว Grok3 เวอร์ชันล่าสุดอย่างเป็นทางการแล้วระหว่างการถ่ายทอดสด ก่อนหน้านี้ มีข้อมูลที่เกี่ยวข้องจำนวนมาก ประกอบกับการโปรโมตของมัสก์ตลอด 24 ชั่วโมงทุกวัน ทำให้ความคาดหวังทั่วโลกที่มีต่อ Grok3 พุ่งสูงขึ้นอย่างไม่เคยมีมาก่อน เมื่อสัปดาห์ที่แล้ว มัสก์ได้กล่าวอย่างมั่นใจระหว่างการถ่ายทอดสดในขณะที่แสดงความคิดเห็นเกี่ยวกับ DeepSeek R1 ว่า "xAI กำลังจะเปิดตัวโมเดล AI ที่ดีกว่า" จากข้อมูลที่นำเสนอแบบสด รายงานว่า Grok3 ได้แซงหน้าโมเดลกระแสหลักทั้งหมดในปัจจุบันในเกณฑ์มาตรฐานสำหรับคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรม โดยมัสก์ยังอ้างว่า Grok3 จะถูกใช้สำหรับงานคำนวณที่เกี่ยวข้องกับภารกิจสำรวจดาวอังคารของ SpaceX และคาดการณ์ว่า "จะมีความก้าวหน้าในระดับรางวัลโนเบลภายในสามปี" อย่างไรก็ตาม ในปัจจุบันนี้เป็นเพียงคำกล่าวอ้างของมัสก์เท่านั้น หลังจากการเปิดตัว ฉันได้ทดสอบ Grok3 เวอร์ชันเบตาเวอร์ชันล่าสุด และตั้งคำถามลับๆ สำหรับโมเดลขนาดใหญ่ว่า "อะไรใหญ่กว่ากัน ระหว่าง 9.11 หรือ 9.9" น่าเสียดายที่ Grok3 ซึ่งเรียกได้ว่าฉลาดที่สุดก็ยังไม่สามารถตอบคำถามนี้ได้อย่างถูกต้อง เนื่องจากไม่มีการระบุคุณสมบัติหรือเครื่องหมายใดๆ Grok3 จึงไม่สามารถระบุความหมายของคำถามได้อย่างถูกต้อง

 

แบบทดสอบนี้ได้รับความสนใจจากเพื่อนๆ จำนวนมากอย่างรวดเร็ว และโดยบังเอิญ แบบทดสอบที่คล้ายกันหลายๆ แบบในต่างประเทศได้แสดงให้เห็นว่า Grok3 มีปัญหาในการตอบคำถามฟิสิกส์/คณิตศาสตร์พื้นฐาน เช่น "ลูกบอลลูกไหนตกลงมาจากหอเอนเมืองปิซาก่อน" จึงได้รับการขนานนามอย่างตลกขบขันว่าเป็น "อัจฉริยะที่ไม่เต็มใจที่จะตอบคำถามง่ายๆ"

640

Grok3 ก็ดี แต่ก็ไม่ได้ดีไปกว่า R1 หรือ o1-Pro

Grok3 ประสบกับ "ความล้มเหลว" ในการทดสอบความรู้ทั่วไปหลายรายการในทางปฏิบัติ ในระหว่างงานเปิดตัว xAI มัสก์ได้สาธิตการใช้ Grok3 เพื่อวิเคราะห์คลาสตัวละครและเอฟเฟกต์จากเกม Path of Exile 2 ซึ่งเขาอ้างว่าเล่นบ่อยมาก แต่คำตอบส่วนใหญ่ที่ Grok3 ให้มานั้นไม่ถูกต้อง มัสก์ไม่ได้สังเกตเห็นปัญหาที่ชัดเจนนี้ระหว่างการถ่ายทอดสด

 

ความผิดพลาดนี้ไม่เพียงแต่ให้หลักฐานเพิ่มเติมแก่ผู้ใช้อินเทอร์เน็ตในต่างประเทศเพื่อล้อเลียนมัสก์ที่ "หาสิ่งทดแทน" ในเกมเท่านั้น แต่ยังทำให้เกิดข้อกังวลอย่างมากเกี่ยวกับความน่าเชื่อถือของ Grok3 ในการใช้งานจริงอีกด้วย สำหรับ "อัจฉริยะ" เช่นนี้ แม้จะมีความสามารถจริง แต่ความน่าเชื่อถือในสถานการณ์การใช้งานที่ซับซ้อนอย่างมาก เช่น ภารกิจสำรวจดาวอังคาร ยังคงน่าสงสัย

 

ในปัจจุบัน ผู้ทดสอบจำนวนมากที่ได้รับสิทธิ์เข้าถึง Grok3 เมื่อ 3 สัปดาห์ก่อน และผู้ที่เพิ่งทดสอบความสามารถของโมเดลเพียงไม่กี่ชั่วโมงเมื่อวานนี้ ต่างก็ชี้ให้เห็นข้อสรุปร่วมกันว่า "Grok3 นั้นดี แต่ไม่ดีไปกว่า R1 หรือ o1-Pro"

640 (1)

มุมมองเชิงวิพากษ์วิจารณ์เกี่ยวกับ "การหยุดชะงักของ Nvidia"

ใน PPT ที่นำเสนออย่างเป็นทางการในระหว่างการเปิดตัว Grok3 ได้แสดงให้เห็นว่า "นำหน้า" อย่างมากใน Chatbot Arena แต่เทคนิคกราฟิกที่ใช้ได้อย่างชาญฉลาดนี้: แกนแนวตั้งบนกระดานผู้นำแสดงผลลัพธ์ในช่วงคะแนน 1,400-1,300 เท่านั้น ทำให้ความแตกต่างเดิม 1% ในผลการทดสอบดูมีความสำคัญเป็นพิเศษในการนำเสนอครั้งนี้

640

จากผลการให้คะแนนโมเดลจริง Grok3 นำหน้า DeepSeek R1 และ GPT-4.0 เพียง 1-2% ซึ่งสอดคล้องกับประสบการณ์ของผู้ใช้จำนวนมากในการทดสอบภาคปฏิบัติที่พบว่า "ไม่มีความแตกต่างที่เห็นได้ชัด" Grok3 เหนือกว่ารุ่นต่อๆ มาเพียง 1-2% เท่านั้น

640

แม้ว่า Grok3 จะมีคะแนนสูงกว่าโมเดลที่ทดสอบต่อสาธารณะทั้งหมดในปัจจุบัน แต่หลายคนก็ไม่ได้ใส่ใจเรื่องนี้มากนัก เพราะ xAI เคยถูกวิพากษ์วิจารณ์ว่า "มีการจัดการคะแนน" ในยุค Grok2 เมื่อกระดานผู้นำลงโทษรูปแบบความยาวของคำตอบ คะแนนก็ลดลงอย่างมาก ทำให้ผู้เชี่ยวชาญในอุตสาหกรรมมักจะวิพากษ์วิจารณ์ปรากฏการณ์ "คะแนนสูงแต่ความสามารถต่ำ"

 

ไม่ว่าจะผ่าน "การจัดการ" บนกระดานผู้นำหรือเทคนิคการออกแบบในภาพประกอบ สิ่งเหล่านี้เผยให้เห็นถึง xAI และความหลงใหลของมัสก์ที่มีต่อแนวคิดที่จะ "เป็นผู้นำ" ในด้านความสามารถของโมเดล มัสก์ต้องจ่ายราคาสูงสำหรับส่วนต่างเหล่านี้: ในระหว่างการเปิดตัว เขาคุยโวว่าใช้ GPU H100 จำนวน 200,000 ตัว (อ้างว่า "มากกว่า 100,000 ตัว" ในระหว่างการถ่ายทอดสด) และสามารถฝึกได้ทั้งหมด 200 ล้านชั่วโมง สิ่งนี้ทำให้บางคนเชื่อว่านี่เป็นอีกประโยชน์สำคัญสำหรับอุตสาหกรรม GPU และมองว่าผลกระทบของ DeepSeek ต่อภาคส่วนนี้เป็นเรื่อง "โง่เขลา" โดยเฉพาะอย่างยิ่ง บางคนเชื่อว่าพลังการประมวลผลมหาศาลจะเป็นอนาคตของการฝึกโมเดล

 

อย่างไรก็ตาม ผู้ใช้อินเทอร์เน็ตบางรายเปรียบเทียบการใช้พลังงานของ GPU H800 จำนวน 2,000 ตัวในเวลา 2 เดือนเพื่อผลิต DeepSeek V3 โดยคำนวณว่าการใช้พลังงานในการฝึกจริงของ Grok3 สูงกว่า V3 ถึง 263 เท่า ช่องว่างระหว่าง DeepSeek V3 ที่ได้คะแนน 1,402 คะแนน และ Grok3 อยู่ที่ต่ำกว่า 100 คะแนน หลังจากมีการเผยแพร่ข้อมูลนี้ หลายคนก็ตระหนักได้อย่างรวดเร็วว่าเบื้องหลังตำแหน่ง "แข็งแกร่งที่สุดในโลก" ของ Grok3 นั้น มีผลประโยชน์ส่วนเพิ่มที่ชัดเจน นั่นคือ ตรรกะของโมเดลขนาดใหญ่ที่สร้างประสิทธิภาพที่แข็งแกร่งกว่าเริ่มแสดงผลตอบแทนที่ลดน้อยลง

640 (2)

แม้ว่าจะมี "คะแนนสูงแต่ความสามารถต่ำ" Grok2 ก็มีข้อมูลบุคคลที่หนึ่งที่มีคุณภาพสูงจำนวนมากจากแพลตฟอร์ม X (Twitter) เพื่อรองรับการใช้งาน อย่างไรก็ตาม ในการฝึก Grok3 xAI ต้องเผชิญกับ "เพดาน" ที่ OpenAI เผชิญอยู่ในปัจจุบันโดยธรรมชาติ นั่นคือการขาดข้อมูลการฝึกระดับพรีเมียมซึ่งเผยให้เห็นถึงประโยชน์ส่วนเพิ่มของความสามารถของโมเดลได้อย่างรวดเร็ว

 

นักพัฒนาซอฟต์แวร์ Grok3 และ Musk น่าจะเป็นฝ่ายแรกที่เข้าใจและระบุข้อเท็จจริงเหล่านี้ได้อย่างลึกซึ้ง ซึ่งเป็นสาเหตุที่ Musk มักจะพูดบนโซเชียลมีเดียว่าเวอร์ชันที่ผู้ใช้กำลังพบเห็นอยู่ในขณะนี้ "ยังเป็นเพียงเวอร์ชันเบต้า" และ "เวอร์ชันเต็มจะเปิดตัวในอีกไม่กี่เดือนข้างหน้า" Musk รับบทบาทเป็นผู้จัดการผลิตภัณฑ์ของ Grok3 โดยแนะนำให้ผู้ใช้ให้ข้อเสนอแนะเกี่ยวกับปัญหาต่างๆ ที่พบในส่วนความคิดเห็น เขาอาจเป็นผู้จัดการผลิตภัณฑ์ที่มีผู้ติดตามมากที่สุดในโลก

 

อย่างไรก็ตาม ภายในหนึ่งวัน ประสิทธิภาพของ Grok3 ได้สร้างความกังวลให้กับผู้ที่หวังจะพึ่งพา "พลังการคำนวณมหาศาล" เพื่อฝึกโมเดลขนาดใหญ่ที่แข็งแกร่งขึ้นอย่างไม่ต้องสงสัย โดยอิงจากข้อมูลของ Microsoft ที่เปิดเผยต่อสาธารณะ GPT-4 ของ OpenAI มีขนาดพารามิเตอร์ 1.8 ล้านล้านพารามิเตอร์ ซึ่งมากกว่า GPT-3 ถึง 10 เท่า มีข่าวลือว่าขนาดพารามิเตอร์ของ GPT-4.5 อาจใหญ่กว่านี้ด้วยซ้ำ

 

เมื่อขนาดพารามิเตอร์ของโมเดลเพิ่มขึ้นอย่างรวดเร็ว ค่าใช้จ่ายในการฝึกอบรมก็พุ่งสูงขึ้นเช่นกัน ด้วยการมีอยู่ของ Grok3 ผู้แข่งขันอย่าง GPT-4.5 และคนอื่นๆ ที่ต้องการ "เผาเงิน" ต่อไปเพื่อให้ได้ประสิทธิภาพของโมเดลที่ดีขึ้นผ่านขนาดพารามิเตอร์จะต้องพิจารณาถึงขีดจำกัดที่เห็นได้ชัดเจนในขณะนี้ และไตร่ตรองว่าจะเอาชนะมันได้อย่างไร ในขณะนี้ Ilya Sutskever อดีตหัวหน้านักวิทยาศาสตร์ของ OpenAI เคยกล่าวไว้ก่อนหน้านี้เมื่อเดือนธันวาคมปีที่แล้วว่า "การฝึกอบรมเบื้องต้นที่เราคุ้นเคยจะสิ้นสุดลง" ซึ่งได้ปรากฏขึ้นอีกครั้งในการอภิปราย กระตุ้นให้เกิดความพยายามในการค้นหาเส้นทางที่แท้จริงสำหรับการฝึกอบรมโมเดลขนาดใหญ่

640 (3)

มุมมองของ Ilya ได้ส่งสัญญาณเตือนไปยังอุตสาหกรรม เขาคาดการณ์ได้อย่างแม่นยำว่าข้อมูลใหม่ที่เข้าถึงได้จะหมดลงในไม่ช้านี้ ซึ่งนำไปสู่สถานการณ์ที่ไม่สามารถปรับปรุงประสิทธิภาพต่อไปได้ด้วยการรวบรวมข้อมูล โดยเปรียบเทียบว่าข้อมูลดังกล่าวเหมือนกับเชื้อเพลิงฟอสซิลที่หมดลง เขาระบุว่า "เช่นเดียวกับน้ำมัน เนื้อหาที่มนุษย์สร้างขึ้นบนอินเทอร์เน็ตเป็นทรัพยากรที่มีจำกัด" ในคำทำนายของ Sutskever โมเดลรุ่นต่อไปหลังจากการฝึกอบรมเบื้องต้นจะมี "ความเป็นอิสระที่แท้จริง" และความสามารถในการใช้เหตุผล "คล้ายกับสมองของมนุษย์"

 

ต่างจากโมเดลที่ผ่านการฝึกอบรมล่วงหน้าในปัจจุบันซึ่งพึ่งพาการจับคู่เนื้อหาเป็นหลัก (โดยอิงจากเนื้อหาของโมเดลที่เรียนรู้มาก่อนหน้านี้) ระบบ AI ในอนาคตจะสามารถเรียนรู้และกำหนดวิธีการเพื่อแก้ปัญหาในลักษณะที่คล้ายกับ "การคิด" ของสมองมนุษย์ มนุษย์สามารถบรรลุความเชี่ยวชาญพื้นฐานในหัวข้อใดหัวข้อหนึ่งได้ด้วยเอกสารประกอบวิชาชีพขั้นพื้นฐานเท่านั้น ในขณะที่โมเดล AI ขนาดใหญ่ต้องการจุดข้อมูลหลายล้านจุดเพื่อให้ได้ประสิทธิภาพขั้นพื้นฐานในระดับเริ่มต้นเท่านั้น แม้ว่าจะมีการเปลี่ยนแปลงคำศัพท์เล็กน้อย คำถามพื้นฐานเหล่านี้อาจไม่สามารถเข้าใจได้อย่างถูกต้อง ซึ่งแสดงให้เห็นว่าโมเดลไม่ได้ปรับปรุงสติปัญญาอย่างแท้จริง คำถามพื้นฐานที่ยังแก้ไม่ได้ซึ่งกล่าวถึงในตอนต้นของบทความเป็นตัวอย่างที่ชัดเจนของปรากฏการณ์นี้

微信Image_20240614024031.jpg1

บทสรุป

อย่างไรก็ตาม นอกเหนือไปจากการใช้กำลังโดยตรง หาก Grok3 สามารถเปิดเผยต่ออุตสาหกรรมได้สำเร็จว่า "โมเดลที่ผ่านการฝึกอบรมล่วงหน้าใกล้จะถึงจุดสิ้นสุด" สิ่งนี้จะส่งผลอย่างมีนัยสำคัญต่อสาขานี้

บางทีเมื่อกระแสความคลั่งไคล้รอบตัว Grok3 ค่อยๆ ลดน้อยลง เราอาจได้เห็นกรณีอื่นๆ ตามมาอีก เช่น ตัวอย่างของ Fei-Fei Li ในเรื่อง "การปรับแต่งโมเดลประสิทธิภาพสูงบนชุดข้อมูลเฉพาะด้วยราคาเพียง 50 ดอลลาร์" ซึ่งสุดท้ายแล้วเราจะค้นพบเส้นทางที่แท้จริงสู่ AGI

ค้นหาโซลูชันสายเคเบิล ELV

สายควบคุม

สำหรับ BMS, BUS, อุตสาหกรรม, สายเครื่องมือวัด

ระบบเดินสายแบบมีโครงสร้าง

เครือข่ายและข้อมูล, สายไฟเบอร์ออปติก, สายแพทช์, โมดูล, แผงหน้าปัด

บทวิจารณ์งานนิทรรศการและกิจกรรมประจำปี 2024

16-18 เมษายน 2567 พลังงานตะวันออกกลางในดูไบ

16-18 เมษายน 2024 Securika ในมอสโก

งานเปิดตัวผลิตภัณฑ์และเทคโนโลยีใหม่ในวันที่ 9 พฤษภาคม 2024 ในเซี่ยงไฮ้

วันที่ 22-25 ตุลาคม 2024 งาน SECURITY CHINA ณ ปักกิ่ง

19-20 พฤศจิกายน 2024 CONNECTED WORLD KSA


เวลาโพสต์ : 19 ก.พ. 2568