تقترب نماذج الذكاء الاصطناعى التوليدي من اتخاذ إجراءات في العالم الحقيقي. بالفعل ، تقدم شركات الذكاء الاصطناعى الكبرى وكلاء الذكاء الاصطناعي الذين يمكنهم الاهتمام بأعمال مشغول على الويب لك ، أو طلب محلات البقالة الخاصة بك أو تحفظ العشاء. اليوم ، أعلنت Google Deepmindنموذجان من الذكاء الاصطناعى التوليدي مصممان لتشغيل روبوتات الغد.
تم تصميم النماذج على حد سواء على Google Gemini ، وهو نموذج الأساس متعدد الوسائط الذي يمكنه معالجة بيانات النص والصوت والصور للإجابة على الأسئلة وتقديم المشورة والمساعدة بشكل عام. يستدعي DeepMind أول النماذج الجديدة ، Gemini Robotics ، وهو “نموذج عمل متقدم-Language-Action” ، مما يعني أنه يمكن أن يستغرق كل هذه المدخلات نفسها ثم إخراج تعليمات الإجراءات المادية للروبوت. تم تصميم النماذج للعمل مع أي نظام أجهزة ، ولكن تم اختبارها في الغالب على نظام Aloha 2 المسلحين الذي قدمه DeepMind العام الماضي.
في مقطع فيديو مظاهرة ، يقول صوت: “التقط كرة السلة وارتفعها” (في الساعة 2:27 في الفيديو أدناه). ثم تلتقط ذراع الروبوت بعناية كرة سلة مصغرة ويسقطها إلى شبكة مصغرة-وعلى الرغم من أنها لم تكن دونك على مستوى الدوري الاميركي للمحترفين ، فقد كان ذلك يكفي لإثارة الباحثين العميق.
https://www.youtube.com/watch؟v=r4uxdumfepiأصدرت Google DeepMind هذا الفيديو التجريبي الذي يعرض إمكانيات نموذج مؤسسة Gemini Robotics الخاصة به للتحكم في الروبوتات.الجوزاء الروبوتات
وقال Kanishka Rao ، مهندس البرمجيات الرئيسي للمشروع ، في مؤتمر صحفي: “مثال كرة السلة هذا أحد المفضلة”. ويوضح أن الروبوت لم يشاهد أبدًا أي شيء يتعلق بكرة السلة “، لكن نموذج الأساس الأساسي الذي كان له فهم عام للعبة ، ويعرف كيف تبدو شبكة كرة السلة ، وفهم ما يعنيه مصطلح” Slam Dunk “. لذلك كان الروبوت “قادرًا على توصيل هؤلاء [concepts] يقول راو: “لإنجاز المهمة في العالم المادي”.
ما هي تقدم الروبوتات الجوزاء؟
قالت كارولينا بارادا ، رئيسة الروبوتات في Google DeepMind ، في إحاطة أن النماذج الجديدة تتحسن على الروبوتات السابقة للشركة في ثلاثة أبعاد: التعميم ، والتكيف ، والبراعة. وقالت إن كل هذه التطورات ضرورية لإنشاء “جيل جديد من الروبوتات المفيدة”.
التعميم يعني أن الروبوت يمكنه قم بتطبيق مفهوم تعلمه في أحد السياق إلى موقف آخر ، ونظر الباحثون في التعميم البصري (على سبيل المثال ، هل يتم الخلط بينه إذا تغير لون كائن أو خلفية) ، وتعميم التعليمات (هل يمكن أن يفسر الأوامر التي يتم صياغتها بطرق مختلفة) ، وتعميم الإجراء (هل يمكن أن يؤدي إجراء لم يسبق له القيام به من قبل).
يقول بارادا أيضًا أن الروبوتات التي تعمل بها الجوزاء يمكن أن تتكيف بشكل أفضل مع التعليمات والظروف المتغيرة. لإثبات هذه النقطة في مقطع فيديو ، أخبر أحد الباحثين ذراعًا روبوتًا لوضع مجموعة من العنب البلاستيكي في حاوية Tupperware واضحة ، ثم انتقل إلى تحويل ثلاث حاويات على الطاولة في تقريب لعبة Shyster Shell. يتبع ذراع الروبوت على نحو ملموس الحاوية الصافية حولها حتى تتمكن من توجيهها.
https://www.youtube.com/watch؟v=GVZ78JHKZROتقول Google DeepMind إن Gemini Robotics أفضل من النماذج السابقة في التكيف مع التعليمات والظروف المتغيرة.Google DeepMind
أما بالنسبة للبراعة ، فقد أظهرت مقاطع الفيديو التجريبية الأسلحة الآلية وهي تطوي قطعة من الورق في ثعلب اوريغامي وأداء مهام دقيقة أخرى. ومع ذلك ، من المهم أن نلاحظ أن الأداء المثير للإعجاب هنا هو في سياق مجموعة ضيقة من البيانات عالية الجودة التي تم تدريبها على هذه المهام المحددة ، وبالتالي فإن مستوى البراعة التي تمثلها هذه المهام لا يتم تعميمها.
ما هو المنطق المجسد؟
النموذج الثاني الذي تم تقديمه اليوم هو Robotics Gemini ، مع وجود ER لـ “التفكير المجسد” ، وهو نوع من العالم المادي البديهي الذي يفهم أن البشر يتطورون مع الخبرة مع مرور الوقت. نحن قادرون على القيام بأشياء ذكية مثل إلقاء نظرة على كائن لم نره من قبل من قبل ونقوم بتخمين متعلم حول أفضل طريقة للتفاعل معها ، وهذا ما يسعى DeepMind إلى محاكاة Gemini Robotics-ER.
أعطت بارادا مثالاً على قدرة الجوزاء الروبوتات-إير على تحديد نقطة استيعاب مناسبة لالتقاط فنجان القهوة. يحدد النموذج المقبض بشكل صحيح ، لأن هذا هو المكان الذي يميل فيه البشر إلى فهم أكواب القهوة. ومع ذلك ، يوضح هذا ضعفًا محتملًا في الاعتماد على بيانات التدريب المتمحورة حول الإنسان: بالنسبة للروبوت ، وخاصة الروبوت الذي قد يكون قادرًا على التعامل مع القدح بشكل مريح من القهوة الساخنة ، قد يكون المقبض الرقيق نقطة استيعاب أقل موثوقية بكثير من فهم أكثر إحياءًا للقدح نفسه.
مقاربة ديبميند تجاه السلامة الآلية
يقول Vikas Sindhwani ، رئيس السلامة الآلية في Deepmind للمشروع ، إن الفريق اتخذ مقاربة ذات طبقة تجاه الأمان. إنه يبدأ بأدوات التحكم في السلامة المادية الكلاسيكية التي تدير أشياء مثل تجنب التصادم واستقرارها ، ولكنها تتضمن أيضًا أنظمة “السلامة الدلالية” التي تقيم كل من تعليماتها وعواقب متابعتها. يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، الذي “مدرب على تقييم ما إذا كان إجراء محتمل في سيناريو معين” ، يقول Sindhwani ، إن هذه الأنظمة الأكثر تطوراً في نموذج الجوزاء الروبوتات ، إن هذه الأنظمة هي الأكثر تطوراً في نموذج الجوزاء الروبوتات.
ونظرًا لأن “السلامة ليست مسعى تنافسيًا” ، يقول Sindhwani ، إن DeepMind تصدر مجموعة بيانات جديدة وما تسميه معيار ASIMOV ، والذي يهدف إلى قياس قدرة النموذج على فهم قواعد الحياة المنطقية. يحتوي المعيار على كل من الأسئلة حول المشاهد المرئية وسيناريوهات النص ، وطرح آراء النماذج حول أشياء مثل استصواب خلط التبييض والخل (مزيج يصنع غاز الكلور) ووضع لعبة ناعمة على موقد ساخن. في الإحاطة الصحفية ، قال Sindhwani إن نماذج الجوزاء لها “أداء قوي” في هذا المؤشر ، وأظهر التقرير الفني أن النماذج حصلت على أكثر من 80 في المائة من الأسئلة الصحيحة.
شراكات DeepMind الآلية
في ديسمبر / كانون الأول ، أعلنت شركة DeepMind وشركة Humanoid Robotics AppTronik عن شراكة ، وتقول بارادا إن الشركتين تعملان معًا “لبناء الجيل القادم من الروبوتات البشرية مع الجوزاء في جوهرها”. تقوم DeepMind أيضًا بإتاحة نماذجها لمجموعة النخبة من “المختبرين الموثوق بهم”: روبوتات Agile ، و Agility Robotics ، و Boston Dynamics ، والأدوات الساحرة.
من مقالات موقعك
المقالات ذات الصلة حول الويب