احدث موديلات علي بابا, QwQ-32B-معاينةحصل على بعض التقييمات الرائعة لقدراته المنطقية. مثل OpenAI's GPT-4 o1،1 لقد ركز تدريبها على التفكير بدلاً من مجرد إعادة إنتاج اللغة. بدا هذا وكأنه شيء يستحق الاختبار – أو على الأقل اللعب به – لذلك عندما سمعت أنه أصبح متاحًا بسرعة كبيرة يكون ولم يكن كبيرًا جدًا بحيث لا يمكن تشغيله على جهاز كمبيوتر محمول مجهز جيدًا، فقد قمت بتنزيل QwQ وتجربته. لقد قمت أيضًا بتجربة بعض النماذج المنافسة: GPT-4 o1 وGemma-2-27B. كان GPT-4 o1 هو النموذج الأول الذي ادعى أنه تم تدريبه خصيصًا للاستدلال. جيما، على حد علمي، لا تقدم مثل هذا الادعاء.
كيف يمكنك اختبار نموذج المنطق؟ الأمر ليس سهلاً مثل مجرد التحقق من الحقائق. وفكرت: “ربما أستطيع أن أطلب إثبات ذلك نظرية فيرما الأخيرة“، لكنني أدركت بسرعة أن الرد الوحيد الذي يمكنني تقييمه هو “لا أستطيع إثبات ذلك”. (وهذا كان في الواقع الرد الذي تلقيته من النماذج الثلاثة). ولا أستطيع إثبات نظرية فيرما الأخيرة أيضًا، ولا أدعي أنني أفهم أيًا من الأدلة الهائلة التي قبلها علماء الرياضيات. إذا قدمت QwQ بضعة آلاف من علامات “الإثبات”، فيمكنني أن أقول بكل ثقة أن منطقها كان معيبًا – فقط لأنني أعرف أن الدليل الفعلي أطول بكثير، وهو مائة صفحة من الاستدلال الرياضي الكثيف. ولكن هذا بالكاد اختبار صالح.
تعلم بشكل أسرع. حفر أعمق. انظر أبعد.
ماذا عن نظرية فيرما الصغيرة؟ هذا أسهل كثيرًا، لكنه مثال كتابي، لذا مهما كانت النتيجة، فلن أعرف أبدًا ما إذا كان QwQ يفكر بشكل صحيح أم أنه تمكن للتو من تكرار شيء ما من مجموعة التدريب الخاصة به. هناك أكثر من عدد قليل من كتب الرياضيات المدرسية على الإنترنت، ومن العدل أن نفترض أن جميعها موجودة في بيانات التدريب.
لذا جربت مثالًا أكثر غموضًا بعض الشيء: أثبت أنه إذا كان الرقم يتكون من الآحاد فقط (مثل 11,111,111) وكان أوليًا، فإن عدد الأرقام (جميع الآحاد) يجب أن يكون أوليًا أيضًا. لقد تمكنت من إثبات ذلك، لكنها ليست مشكلة مشهورة بما يكفي لجذب انتباه الكتب المدرسية. لذلك دعونا نذهب! إليك دليل QwQ:
>>> Can you prove that if all the digits of a prime number are 1,
then the number of digits must be prime?
دعونا نتعامل مع هذه المشكلة خطوة بخطوة. إذن، العبارة هي: إذا كانت جميع أرقام العدد الأولي هي 1، فيجب أن يكون عدد الأرقام أوليًا. حسنًا، مثير للاهتمام. دعونا كسر هذا إلى أسفل.
أولاً، دعونا نفهم ما الذي نتعامل معه. لدينا عدد أولي جميع أرقامه هي 1. على سبيل المثال، أرقام مثل 11، 111، 1111، وما إلى ذلك، ولكن مع الأخذ في الاعتبار الأرقام الأولية فقط. نحن بحاجة إلى إثبات أن عدد الأرقام في مثل هذا العدد الأولي يجب أن يكون في حد ذاته عددًا أوليًا.
اسمحوا لي أن أفكر في هذا. دعونا نشير إلى عدد الأرقام بواسطة
\( n \)
. إذن العدد مكون من\( n \)
تلك. تُعرف هذه الأرقام بأرقام إعادة الوحدة. إعادة الوحدة هي رقم يتكون فقط من الآحاد في تمثيله العشري. على سبيل المثال،\( R_2 = 11 \)
,\( R_3 = 111 \)
,\( R_4 = 1111 \)
وما إلى ذلك، حيث\(\ R_n \)
يدل على إعادة الطول\( n \)
.هدفنا هو إظهار أنه إذا
\( R_n \)
هو أولي، إذن\( n \)
يجب أن يكون رئيس الوزراء.دعونا نفكر في الجانب المعاكس لهذا البيان. عكس “إذا”.
\( R_n \)
هو أولي، إذن\( n \)
هو أولي” هو “إذا\( n \)
ليست أولية، إذن\( R_n \)
ليس رئيسا.” إذا تمكنا من إثبات العكس، فإن ذلك سيثبت العبارة الأصلية.
…وهكذا حتى…
**الإجابة النهائية**
\[ \boxed{\text{If } R_n \text{ is prime,
then } n \text{ is prime.}} \]
لقد وفرت لك الدليل الشفهي (جدًا)، إذا كنت تريد رؤيته، فضع QwQ على النص بنفسك. ويكفي أن نقول أنه كان على حق. أعطاني كل من GPT-4 o1 وGemma-2-27B نفس الدليل ولكن مع قدر أقل من الثرثرة. تخطت جيما بعض الخطوات التي قد يعتبرها الإنسان واضحة.2
بعد ذلك، هل يمكننا أن نذهب خطوة أبعد ونقوم بالتعميم؟
>>> does this proof hold for
bases other than base 10?
هذا سؤال مثير للاهتمام! دعونا نستكشف ما إذا كان من الممكن توسيع هذا الدليل ليشمل قواعد أخرى غير الأساس 10.
في القاعدة
\( b \)
إعادة الطول\( n \)
يتم تعريفه على النحو التالي:\[ R_n^{(b)} = \frac{b^n - 1}{b - 1} \]
…وهكذا…
مرة أخرى، جرب ذلك بنفسك، ومرة أخرى، أثبت QwQ ذلك بشكل صحيح. من غير المرجح أن يظهر هذا الاقتراح الثاني في الكتب المدرسية أو الموارد الأخرى؛ إنه دليل أقل من ملاحظة أن الدليل الأصلي لم يقدم أي افتراضات حول القاعدة.
عندما طلبت من GPT إثبات نفس النظرية، حصلت على دليل مشابه جدًا (وصحيح)، تم ذكره بشكل أكثر رسمية وبتعليقات أقل بالألوان. وهذا ليس مفاجئًا بشكل خاص، حيث تم تدريب GPT أيضًا على التفكير. لقد تفاجأت أكثر عندما رأيت أن Gemma-2-27B أعطتني أيضًا دليلاً صحيحًا. لقد تم تدريب جيما على النصوص الرياضية ولكن ليس على وجه التحديد على “الاستدلال”. (ربما لم يفكر تسويق Google مطلقًا في تسمية هذا التدريب بـ “الاستدلال”.) حذفت جيما بعض الخطوات، وهي خطوات من المحتمل أن يتجاهلها الإنسان العادي لأنها واضحة ولكن عالم الرياضيات قد يكتبها للتأكد من اكتمالها. (للتأكد فقط، طلبت من GPT التأكد من صحة دليل جيما. ووافقت على ذلك.)
هل أثبتنا أن نماذج التدريب للتفكير “تنجح”؟ حسنًا، لا يمكننا أن ندعي أننا أثبتنا أي شيء على أساس تجربة واحدة ناجحة، أو على أساس عدد كبير جدًا من التجارب. (إذا كنت تتساءل، فقد فشل نموذج Gemma-2-7B، وهو نموذج أصغر). لكننا تعلمنا شيئًا مهمًا للغاية. فكر في حجم النماذج: لم تذكر OpenAI شيئًا عن حجم GPT-4 o1، ولكن يُشاع أنه يحتوي على أكثر من تريليون معلمة. يبلغ وزن QwQ 32 مليار معلمة، وGemma-2-27B يبلغ 27 مليارًا. لذا فإن QwQ وGemma2 يقعان بين درجتين تقريبًا أصغر من GPT. علاوة على ذلك، تعمل GPT على ما يمكن اعتباره واحدًا من أكبر أجهزة الكمبيوتر العملاقة في العالم. لا نعرف الحجم، لكننا نعلم أن البنية التحتية لـ OpenAI ضخمة وتتضمن نسبة كبيرة من وحدات معالجة الرسوميات المتطورة في العالم. كان QwQ وGemma يعملان بسعادة على جهاز MacBook Pro الخاص بي. لقد جعلوا المروحة تدور وامتصوا البطارية ولكن لم يكن هناك شيء غير عادي. من المؤكد أن GPT تخدم آلاف المستخدمين في وقت واحد، لذا فهي ليست مقارنة عادلة حقًا. ولكن من المهم أن ندرك أن GPT ليست اللعبة الوحيدة في المدينة وأن النماذج التي يتم تشغيلها محليًا يمكن أن تعادل GPT في المهام غير البسيطة. توصل معظم الأشخاص الذين جربوا تشغيل النماذج محليًا إلى استنتاجات مماثلة، ولكن فكروا في ما يعنيه ذلك. إذا كنت تقوم بإنشاء تطبيق للذكاء الاصطناعي، فلا يتعين عليك ربط نفسك بـ OpenAI. يمكن للنماذج المفتوحة الأصغر حجمًا أن تقوم بهذه المهمة، وستحميك من فواتير OpenAI (والزيادات الحتمية في الأسعار)، وستسمح لك بالاحتفاظ ببياناتك محليًا، وستترك لك السيطرة على مصيرك.
ماذا يمكننا أن نتعلم؟ لقد تساءلت كيف يمكن تدريب نموذج اللغة على المنطق؛ قال حدسي إن ذلك سيكون مشكلة أصعب وأكثر تعقيدًا من تدريبه على اللغة. حدسي كان خاطئا. لا أعرف كيف تم تدريب هذه النماذج، لكنني أعتقد الآن أن إنتاج المنطق بنجاح هو، في كثير من النواحي، أبسط من توليد اللغة. لماذا؟ يعطينا إسهاب QwQ تلميحًا كبيرًا: “دعونا نفكر في التناقض الإيجابي لهذا البيان.” إن العكس الإيجابي هو ببساطة نمط منطقي: إذا كان A يتضمن B، فإن B لا يعني عدم وجود A. ما هي الأنماط المنطقية الأخرى التي يمكننا التفكير فيها؟ القياس المنطقي: إذا كانت A تتضمن B وB تتضمن C، فإن A تتضمن C. الدليل على التناقض: لإثبات أن A يتضمن B، افترض أن A لا يتضمن B وأظهر أن الافتراض خاطئ. الاستقراء: أظهر أنه إذا A(n)
ضمنا B(n)
ثم A(n+1)
ضمنا B(n+1)
; ثم أظهر ذلك A(0)
ضمنا B(0)
.
سيكون من السهل إنشاء قائمة أطول من الأنماط. هناك رموز أفضل لتمثيل هذه الأنماط، ولكن القائمة الأطول والتمثيلات الأفضل ليست مهمة هنا. المهم هو أن ندرك أن هذه مجرد أنماط، وأن تكوين الأنماط المنطقية في عبارات منطقية أو أدلة لا يختلف جوهريًا عن تركيب الكلمات (أو الرموز المميزة) في الجمل. هل دفع الأنماط حول جوهر المنطق؟ هذا ليس سؤالاً عادلاً: إنه منطق إذا قمت بذلك بشكل صحيح، وغير منطقي إذا لم تفعل ذلك. المنطق ليس في الأنماط ولكن في معرفة كيفية تجميع الأنماط لحل المشكلات – ويجب أن تكون عملية تجميع الأنماط هي محور التدريب، والنظر في الملايين من الأمثلة على التفكير المنطقي لنمذجة الطريقة التي يتم بها تجميع الأنماط أجمعين. أي من هذه الأنماط المنطقية يمكن أن يقودك إلى الضلال إذا لم تكن حذرًا؛ من السهل إنشاء قياسات منطقية خاطئة من خلال البدء بمقدمات غير صحيحة. لا أتوقع أن المنطق سيعالج مشكلة الهلوسة. لكنني أظن أن تدريب النموذج على الأنماط المنطقية هو وسيلة أفضل للنموذج “لتعلم” المنطق من مجرد تدريبه على الكلمات (الكلام البشري). هذا هو الرهان الذي تراهن عليه شركات OpenAI، وAlibaba، وربما جوجل، ويبدو أنها تفوز.
هل يمكننا أن نذهب أبعد من ذلك؟ هل هناك أنواع أخرى من الأنماط التي يمكن تدريب النماذج اللغوية عليها؟ نعم. لقد أثبت الذكاء الاصطناعي التوليدي فائدته في إنشاء التعليمات البرمجية ولكنه لم يحقق (حتى الآن) تقدمًا كبيرًا في تصميم البرامج. هل يمكن أن تكون نماذج التدريب على أنماط التصميم على وجه التحديد بمثابة إنجاز كبير؟3 لا أعرف، ولكن أود أن أرى شخص ما يحاول. سيكون النموذج المتخصص لتصميم البرمجيات أمرًا يستحق الحصول عليه.
هل يمكننا أن نفعل ما هو أفضل مع الموسيقى التوليدية إذا قمنا بتدريب النماذج على الأنماط التي تم تحليلها في نظرية الموسيقى، بالإضافة إلى الصوت؟ تطبيقات مثل شمس إنها ممتعة جدًا، ولكن عندما تتعمق فيها، تجدها مجرد تكرار الكليشيهات للأنماط الموسيقية الشائعة. هل سيكون من المفيد إعطاء سونو بعض المعرفة بنظرية الموسيقى، ومعرفة الأنماط الكامنة وراء الموسيقى بالإضافة إلى الموسيقى نفسها؟ هل يمكن لنماذج اللغة أن تكتب شعرًا أفضل إذا تم تدريبها على الأنماط الموجودة في اللغة الشعرية (الأدوات البلاغية، والكلام المجازي) بدلاً من مجرد الكلمات؟ كانت إحدى تجاربي الأولى مع الذكاء الاصطناعي التوليدي هي أن أطلب من GPT-3 كتابة سونيتة بتراركان، والتي لها بنية مختلفة عن السوناتة الشكسبيرية الأكثر شيوعًا. فشل GPT-3 ومعاصروه. لقد مر وقت طويل قبل أن أجد نموذجًا يمكنه القيام بذلك بنجاح؛ على الرغم من أن معظم النماذج يمكن أن تحدد السوناتة البتراركية، إلا أنها تستطيع فقط توليد السوناتات الشكسبيرية. تم تدريب هذا الجيل من النماذج على الكلمات فقط، وليس على الأنماط الأكبر.
هل هذا هو الطريق إلى الأمام بالنسبة للذكاء الاصطناعي؟ لا أعلم، لكني أود أن أرى باحثي الذكاء الاصطناعي يحاولون ذلك. في غضون ذلك، يكفي أن ندرك أنه، على الرغم من قوة نماذج GPT، يمكنك تشغيل نماذج صغيرة مفتوحة على جهاز كمبيوتر محمول أو هاتف يعمل بنفس القدر من الجودة.
الحواشي
- لقد قمت باختبار المعاينة، والتي تمت ترقيتها الآن إلى GPT-4 o1. لم أقم بإعادة الاختبار مع الإصدار o1 النهائي، والذي من المفترض أنه خضع لمزيد من التدريب والتحسين.
- قررت لاحقًا أنه من الظلم حذف كلود. لذلك قمت بتجريب نموذج هايكو الصغير لكلود (معلمات 8B) وحصلت على دليل صحيح. من بين المجموعة، كانت العبارة الأكثر إيجازًا وتطلبت الكثير من التفكير لمعرفة أنها كانت صحيحة.
- ترتبط أنماط التصميم بشكل عام بالتصميم الموجه للكائنات، لكن المفهوم أكثر عمومية. تحاول أنماط التصميم إيجاد حلول للمشكلات التي تراها كل يوم؛ تسمية الحل تسمح لك بالحديث عنه. ينطبق هذا التعريف على أي تخصص، بما في ذلك البرمجة الوظيفية والهندسة المعمارية (بالطبع).