بالنسبة لأولئك الذين يتمتعون بالتجذير من أجل المستضعف ، فإن أحدث نتائج MLPERF القياسية سيخيب أملك: لقد سيطر وحدات معالجة الرسومات على NVIDIA على المنافسة حتى الآنمرة أخرى. ويشمل ذلك أداءً يتصدر الرسم البياني على أحدث المعايير والأكثر تطلبًا ، مما يبرز نموذج اللغة الكبير LLAMA 3.1 403B. ومع ذلك ، فإن أجهزة الكمبيوتر التي تم بناؤها حول أحدث GPU AMD ، MI325X ، تطابق أداء NVIDIA H200 ، بلاكويل سلف ، على المعيار الأكثر شعبية LLM الصقل الدقيق. هذا يشير إلى أن AMD هو جيل واحد وراء Nvidia.
MLPERF Training هو واحد من مسابقات التعلم الآلي الذي يديره اتحاد MLCommons. يقول ديف سالفاتور ، مدير منتجات الحوسبة المتسارعة في NVIDIA: “يمكن أن يكون أداء الذكاء الاصطناعي في بعض الأحيان نوعًا من الغرب المتوحش. يسعى Mlperf إلى تقديم النظام إلى تلك الفوضى”. “هذه ليست مهمة سهلة.”
تتكون المنافسة من ستة معايير ، كل منها يبحث في مهمة تعلم آلي مختلفة ذات صلة بالصناعة. المعايير هي توصية المحتوى ، ونموذج اللغة الكبير ، ونموذج اللغة الكبير ، والكشف عن الكائنات لتطبيقات رؤية الماكينة ، وتوليد الصور ، وتصنيف عقدة الرسم البياني للتطبيقات مثل اكتشاف الاحتيال واكتشاف المخدرات.
تعد مهمة تدريبي النموذج الكبير اللغوي هي الأكثر كثافة في الموارد ، وتم تحديث هذه الجولة لتكون أكثر من ذلك. مصطلح “ما قبل التدريب” مضلل إلى حد ما – قد يعطي انطباعًا بأنه يتبعه مرحلة تسمى “التدريب”. ليست كذلك. التدريج هو المكان الذي يحدث فيه معظم الأرقام ، وما يلي عادة ما يكون صقلًا جيدًا ، والذي يقوم بتحسين النموذج لمهام محددة.
في التكرارات السابقة ، تم إجراء التدريب على نموذج GPT3. هذا التكرار ، تم استبداله بـ Meta's Llama 3.1 403b ، وهو أكثر من ضعف حجم GPT3 ويستخدم نافذة سياق أكبر أربع مرات. نافذة السياق هي مقدار نص الإدخال الذي يمكن أن يعالجه النموذج مرة واحدة. يمثل هذا المعيار الأكبر اتجاه الصناعة لنماذج أكبر من أي وقت مضى ، بالإضافة إلى تضمين بعض التحديثات المعمارية.
بلاكويل يتصدر المخططات ، AMD على ذيلها
بالنسبة لجميع المعايير الستة ، كان أسرع وقت تدريب على وحدات معالجة الرسومات بلاكويل في NVIDIA. قدمت Nvidia نفسها إلى كل معيار (تم تقديم شركات أخرى أيضًا باستخدام أجهزة كمبيوتر مختلفة مبنية حول NVIDIA GPU). أكد Salvator من Nvidia على أن هذا هو أول عملية نشر لقياس وحدات معالجة الرسومات Blackwell على نطاق واسع وأن هذا الأداء من المحتمل أن يتحسن فقط. يقول: “ما زلنا في وقت مبكر إلى حد ما في دورة حياة Blackwell التنمية”.
هذه هي المرة الأولى التي تقدم فيها AMD إلى معيار التدريب ، على الرغم من أنه في السنوات السابقة قد قدمت الشركات الأخرى باستخدام أجهزة الكمبيوتر التي تضمنت وحدات معالجة الرسومات AMD. في المعيار الأكثر شعبية ، أظهرت LLM Tuning ، AMD أن أحدث GPU غريزة MI325X تم عرضها على قدم المساواة مع NVIDIA H200s. بالإضافة إلى ذلك ، أظهر غريزة MI325x تحسنا بنسبة 30 في المائة على سابقتها ، وهي غريزة MI300X. (الفرق الرئيسي بين الاثنين هو أن MI325x يأتي مع ذاكرة عرضية عالية بنسبة 30 في المائة من MI300X.)
بالنسبة إلى الجزء ، تم إرسال Google إلى معيار واحد ، وهي مهمة تلبية الصور ، مع TRILLIUM TPU.
أهمية الشبكات
من بين جميع التقديمات إلى معايير الضبط الدقيقة LLM ، تم تقديم النظام الذي يحتوي على أكبر عدد من وحدات معالجة الرسومات من قبل NVIDIA ، وهو جهاز كمبيوتر يربط 512 B200s. على هذا النطاق ، يبدأ التواصل بين وحدات معالجة الرسومات في لعب دور مهم. من الناحية المثالية ، فإن إضافة أكثر من GPU من شأنه أن يقسم الوقت للتدريب بعدد وحدات معالجة الرسومات. في الواقع ، يكون دائمًا أقل كفاءة من ذلك ، حيث يتم فقدان بعض الوقت للاتصال. تقليل هذه الخسارة هو مفتاح التدريب بكفاءة أكبر النماذج.
يصبح هذا أكثر أهمية في المعيار المسبق ، حيث استخدم أصغر تقديم 512 وحدات معالجة الرسومات ، وأكبر 8،192. بالنسبة لهذا المعيار الجديد ، كان تحجيم الأداء مع المزيد من وحدات معالجة الرسومات على وجه الخصوص قريبة من الخطي ، حيث حقق 90 في المائة من الأداء المثالي.
يعزو Salvator من Nvidia هذا إلى NVL72 ، وهي حزمة فعالة تربط 36 Grace CPUs و 72 GPUS Blackwell مع NVLink ، لتشكيل نظام “يعمل كمعالجة رسومات واحدة ضخمة” ، كما تدعي ورقة البيانات. ثم تم توصيل NVL72s المتعددة بتكنولوجيا شبكة Infiniband.
والجدير بالذكر أن أكبر تقديم لهذه الجولة من MLPERF – في وحدات معالجة الرسومات 8192 – ليس الأكبر على الإطلاق ، على الرغم من المتزايد المتزايد في المعيار المسبق. شهدت الجولات السابقة التقديمات مع أكثر من 10000 وحدات معالجة الرسومات. يعزو Kenneth Leach ، AI الرئيسي ومهندس التعلم الآلي في Hewlett Packard Enterprise ، التخفيض إلى التحسينات في وحدات معالجة الرسومات ، وكذلك التواصل بينهما. “في السابق ، كنا بحاجة إلى 16 عقد خادم [to pretrain LLMs]لكننا اليوم قادرون على القيام بذلك مع 4. أعتقد أن هذا أحد الأسباب التي تجعلنا نرى الكثير من الأنظمة الضخمة ، لأننا نحصل على الكثير من التحجيم الفعال. ”
تتمثل إحدى طرق تجنب الخسائر المرتبطة بالشبكات في وضع العديد من مسرعات الذكاء الاصطناعى على نفس الرقاقة الضخمة ، كما فعلها Cerebras ، والتي ادعت مؤخرًا التغلب على وحدات معالجة الرسومات في Nvidia Blackwell بأكثر من عامل لمهام الاستدلال. ومع ذلك ، تم قياس هذه النتيجة من خلال التحليل الاصطناعي ، الذي يستفسر عن مقدمي الخدمات المختلفين دون التحكم في كيفية تنفيذ عبء العمل. لذلك ليس مقارنة بين التفاح إلى ما يضمنه معيار MLPERF.
قلة السلطة
يتضمن معيار MLPERF أيضًا اختبارًا للطاقة ، وقياس مقدار الطاقة المستهلكة لتحقيق كل مهمة تدريب. هذه الجولة ، فقط مقدمة واحدة – لينوفو – تمكنت من قياس الطاقة في تقديمها ، مما يجعل من المستحيل إجراء مقارنات عبر الفنانين. كانت الطاقة التي استغرقتها لضبط LLM على وحدات معالجة الرسومات بلاكويل 6.11 Gigajoules ، أو 1698 كيلو واط ساعة ، أو تقريبًا الطاقة التي ستستغرقها تسخين منزل صغير لفصل الشتاء. مع وجود مخاوف متزايدة بشأن استخدام طاقة الذكاء الاصطناعي ، فإن كفاءة الطاقة في التدريب أمر بالغ الأهمية ، وربما لا يكون هذا المؤلف وحده على أمل تقديم المزيد من الشركات في جولات مستقبلية.
من مقالات موقعك
المقالات ذات الصلة حول الويب