xs
xsm
sm
md
lg

แกะสูตร "แฟรงเกนเมิร์จ" 18,000 ล้านพารามิเตอร์ อัด 3 มันสมอง AI ลงการ์ดจอถูกๆ ทุบหม้อข้าวโมเดลยักษ์ค่ายอาลีบาบา

เผยแพร่:   ปรับปรุง:



วงการปัญญาประดิษฐ์โอเพนซอร์สเดือดจัด เมื่อวิศวกรอิสระผ่าตัดเชื่อมต่อสมองกลสามขั้ว "โคล้ด โอปุส-ควอน-จีแอลเอ็ม" ลงในโมเดลขนาดกระทัดรัดเพียง 18,000 ล้านพารามิเตอร์ นี่ไม่ใช่แค่การทดลองเล่นสนุกในวันหยุดอีกต่อไป เพราะผลลัพธ์ที่ได้ดันออกมาดีกว่าโมเดลเรือธงรุ่นใหม่ล่าสุดของอาลีบาบาที่มีขนาดใหญ่กว่าถึงเท่าตัว บนต้นทุนฮาร์ดแวร์ระดับการ์ดจอเล่นเกม สะท้อนให้เห็นว่า "พลัง" ที่แท้จริงของ AI ไม่ได้วัดกันที่จำนวนพารามิเตอร์อีกต่อไป แต่อยู่ที่ "ภูมิปัญญา" ในการจัดเรียงชั้นข้อมูลอย่างชาญฉลาด

หากคุณคิดว่าการมาถึงของ "ควอปุส" (Qwopus) ซึ่งเป็นการหลอมรวมมันสมองระหว่าง Claude Opus และ Qwen นั้นเจ๋งพอแล้ว ขอให้เตรียมตัวพบกับบทใหม่ของการทดลองสุดบ้าคลั่งที่อาจสั่นคลอนสมรภูมิโมเดลภาษาขนาดใหญ่เสียใหม่ เมื่อ ไคล์ เฮสส์ลิง (Kyle Hessling) วิศวกรโครงสร้างพื้นฐานด้าน AI ผู้เปี่ยมไปด้วยองค์ความรู้และดูเหมือนจะมีเวลาเหลือเฟือ ได้หยิบเอาสูตรสำเร็จเดิมมาต่อยอดด้วยการโยน GLM หนึ่งในโมเดลที่มีตรรกะการให้เหตุผลเฉียบคมที่สุดในตลาดขณะนี้ ลงไปในหม้อต้มรวมมิตร

ผลลัพธ์ที่ได้คือสิ่งที่เรียกว่า "แฟรงเกนเมิร์จ" (Frankenmerge) ขนาด 18,000 ล้านพารามิเตอร์ มันคือสิ่งมีชีวิตทางดิจิทัลที่เกิดจากการ "เสียบต่อจิ๊กซอว์" ชั้นข้อมูลของสองโมเดลเข้าด้วยกันโดยไม่มีการผสมค่าเฉลี่ยทางคณิตศาสตร์ใด ๆ ทั้งสิ้น และที่สำคัญคือมันเล็กพอจะยัดลงในการ์ดจอราคาย่อมเยา แต่กลับมีฤทธิ์เดชเหนือกว่าโมเดลน้องใหม่ขนาด 35,000 ล้านพารามิเตอร์จากค่ายอาลีบาบาอย่างน่าตกใจ

เพื่อให้เข้าใจตรงกันในเชิงวิศวกรรม พารามิเตอร์เปรียบเสมือน "ลูกบิด" ปรับแต่งค่าความรู้ที่ฝังอยู่ในโครงข่ายประสาทเทียม ยิ่งมีลูกบิดมากเท่าไหร่ โมเดลก็ยิ่งมีความซับซ้อนและใช้หน่วยความจำในการประมวลผลมหาศาลขึ้นเป็นเงาตามตัว การที่เฮสส์ลิงสร้างโมเดลขนาดเล็กแต่ทรงพลังกว่าคู่แข่งตัวเบิ้มได้ จึงไม่ต่างจากการสร้างเครื่องยนต์เบนซิน 4 สูบที่แรงม้าแซงหน้าเครื่อง V6 ได้อย่างไม่น่าเชื่อ

สูตรลับแห่งความพลิกผัน "การผ่าตัดเรียงชั้นใหม่"

เบื้องหลังความสำเร็จนี้ไม่ได้มาจากคาถาอาคมใด ๆ แต่เป็นความเข้าใจใน "สถาปัตยกรรม" ของโมเดลอย่างลึกซึ้ง เฮสส์ลิงได้นำผลงานการปรับแต่งแบบละเอียด (Finetune) ของนักพัฒนานามแฝงว่า แจ็ครอง (Jackrong) สองชุดมาซ้อนทับกันโดยใช้เทคนิคที่เรียกว่า "พาสทรูแฟรงเกนเมิร์จ" (Passthrough Franckenmerge) กล่าวคือไม่มีการเฉลี่ยค่าน้ำหนักระหว่างชั้นข้อมูล แต่เป็นการ "ตัดแปะ" ชั้นข้อมูลทั้งบล็อกเข้าด้วยกันดิบๆ โดยมีสมมติฐานอันหลักแหลมว่า หากเรายัดเยียดสไตล์การวางแผนโครงสร้างแบบ Claude Opus ไว้ในครึ่งแรกของกระบวนการคิด (ชั้นที่ 0 ถึง 31) และตามด้วยระบบการแยกแยะปัญหาอันเป็นจุดแข็งของ GLM ในครึ่งหลัง (ชั้นที่ 32 ถึง 63) โมเดลก็จะกลายเป็นนักคิดที่ทั้งมียุทธศาสตร์และมีตรรกะในร่างเดียว

อุปสรรคสำคัญที่เฮสส์ลิงเผชิญคือ เครื่องมือรวมโมเดลที่มีอยู่ในท้องตลาดไม่มีชิ้นไหนรองรับสถาปัตยกรรมแบบผสม (Hybrid Linear/Full Attention) ของ Qwen 3.5 ได้เลย วิศวกรรายนี้จึงต้องลงมือเขียนสคริปต์สำหรับการควบรวมขึ้นมาใหม่หมดจดด้วยตนเอง ก่อนจะพบว่าผลลัพธ์ที่ออกมาในตอนแรกนั้น "พัง" ไม่เป็นท่า สมองกลที่ประกอบร่างขึ้นมามักจะให้ผลลัพธ์เป็นภาษาต่างดาวที่ไร้ความหมาย

ชัยชนะบนขีดจำกัดของฮาร์ดแวร์ผู้บริโภค

หลังจากการ "ฮีล" หรือบำบัดรักษาโมเดลด้วยเทคนิค QLoRA อีกหลายพันสเต็ป สิ่งมหัศจรรย์ก็บังเกิด โมเดลลูกผสมนี้ผ่านการทดสอบความสามารถถึง 40 จาก 44 รายการ โดยสามารถโค่นแชมป์อย่าง Alibaba Qwen 3.6-35B-A3B MoE ลงได้อย่างราบคาบ ทั้งที่คู่แข่งรายนั้นต้องใช้หน่วยความจำการ์ดจอ (VRAM) ถึง 22 กิกะไบต์ในการทำงาน ในขณะที่อสูรกาย 18,000 ล้านพารามิเตอร์ของเฮสส์ลิงใช้พื้นที่เพียง 9.2 กิกะไบต์ในรูปแบบบีบอัด Q4_K_M เท่านั้น ตามทฤษฎีแล้ว การ์ดจออย่าง NVIDIA RTX 3060 ที่วัยรุ่นเล่นเกมมีติดเครื่องอยู่แล้วก็สามารถรันมันได้อย่างสบายๆ

ความสำเร็จนี้สะท้อนภาพใหญ่ที่ชัดเจนยิ่งกว่าตัวเลขประสิทธิภาพเสียอีก นั่นคือ "ความเป็นอิสระ" ของเทคโนโลยี AI โลกที่นักพัฒนานิรนามสามารถเปิดเผยสูตรการปรับแต่งโมเดลแบบหมดเปลือก ตามด้วยวิศวกรงานอดิเรกอีกคนที่ใช้เวลาว่างเขียนโค้ดประกอบร่างเอง และเอาชนะผลิตภัณฑ์จากห้องแล็บยักษ์ใหญ่ระดับโลกได้ภายในเวลาไม่กี่สัปดาห์

จุดอ่อนในความอัจฉริยะขั้นวิกฤต "หากคิดมากเกินไป"

อย่างไรก็ตาม ในการทดสอบภาคสนามโดยทีมข่าว พบว่า "ความฉลาด" ของโมเดลนี้มาพร้อมกับราคาที่ต้องจ่าย นั่นคืออาการ "คิดมาก" หรือ Overthinking เมื่อทดลองรันบนแมคบุ๊กชิป M1 ด้วยรูปแบบบีบอัด MLX และป้อนคำสั่งง่ายๆ อย่าง "เขียนเกมงู" (Snake Game) โมเดลกลับใช้เวลาในขั้นตอนการให้เหตุผล (Reasoning Chain) นานกว่า 40 นาที โดยยังคงวนเวียนอยู่กับการขบคิดโครงสร้างของโค้ดโดยที่ยังไม่ได้เริ่มเขียนเกมแต่อย่างใด จนไปแตะขีดจำกัดของโทเคนในที่สุด

ปรากฏการณ์นี้ดูเหมือนจะเป็นมรดกตกทอดมาจากสายพันธุ์ "ควอปุส" ที่พยายามลดพฤติกรรมการคิดซ้ำซากให้ประหยัดทรัพยากรขึ้น แต่การนำเอาชั้นข้อมูลของสองนักคิดชั้นเซียนมาซ้อนกันถึง 64 ชั้น กลับกระตุ้นให้พฤติกรรมการใช้ตรรกะแบบไม่สิ้นสุดนั้นรุนแรงกว่าเดิม สำหรับผู้ที่หวังจะใช้งานโมเดลนี้ในเชิงพาณิชย์หรือใช้งานในชีวิตประจำวันบนฮาร์ดแวร์ส่วนบุคคล อาการ "ดีเลย์ทางความคิด" เช่นนี้คือกำแพงที่ขวางกั้นอย่างแท้จริง

อย่างไรก็ดีปัญหาเช่นนี้มิใช่เรื่องใหญ่สำหรับชุมชนโอเพนซอร์ส เพราะมันเป็นปัญหาที่ "แก้ได้" และเชื่อได้ว่าอีกไม่นานจะมีผู้ที่เข้ามาพัฒนาวิธีควบคุมวงจรความคิดนี้ให้สมดุลยิ่งขึ้น เพราะเมื่อพิจารณาจากตัวเลขดาวน์โหลดที่พุ่งทะลุสามพันครั้งภายในสองสัปดาห์แรกหลังจากที่แจ็ครองนำพื้นที่เก็บโค้ดของเฮสส์ลิงไปเชื่อมต่อไว้ นี่คือสัญญาณที่ชัดเจนว่าคลื่นลูกใหม่ของการพัฒนา AI ไม่ได้ผูกขาดอยู่แค่ในซิลิคอนวัลเลย์อีกต่อไป หากแต่กำลังก่อตัวขึ้นเงียบๆ ในห้องนอนของบรรดานักพัฒนา ที่พร้อมจะเขย่าบัลลังก์ของบรรดาบริษัทยักษ์ใหญ่ได้ทุกเมื่อ