تخيل أنك تلعب نسخة جديدة معدلة قليلاً من اللعبة GeoGuessr. أمامك صورة لمنزل أمريكي متوسط، ربما مكون من طابقين مع حديقة أمامية في طريق مسدود وعلم أمريكي يرفرف بفخر في الأمام. ولكن لا يوجد شيء مميز بشكل خاص حول هذا المنزل، ولا شيء يخبرك بالحالة التي يوجد بها أو من أين ينتمي أصحابه.
لديك أداتان تحت تصرفك: عقلك، و44,416 صورة منخفضة الدقة ومنظور أعلى لأماكن عشوائية في جميع أنحاء الولايات المتحدة وبيانات الموقع المرتبطة بها. هل يمكنك مطابقة المنزل مع صورة جوية وتحديد موقعه بشكل صحيح؟
بالتأكيد لم أستطع ذلك، ولكن من المحتمل أن يكون نموذج التعلم الآلي الجديد قادرًا على ذلك. يبحث البرنامج، الذي أنشأه باحثون في جامعة الصين للبترول (شرق الصين)، في قاعدة بيانات لصور الاستشعار عن بعد مع معلومات الموقع المرتبطة بها لمطابقة صورة الشارع – لمنزل أو مبنى تجاري أو أي شيء آخر يمكن تصويره من الطريق – إلى صورة جوية في قاعدة البيانات. في حين أن الأنظمة الأخرى يمكنها أن تفعل الشيء نفسه، فإن هذا النظام بحجم الجيب مقارنة بالأنظمة الأخرى ودقيق للغاية.
في أفضل حالاتها (عند مواجهة صورة ذات مجال رؤية يبلغ 180 درجة)، تنجح بنسبة تصل إلى 97 بالمائة من الوقت في المرحلة الأولى من تضييق الموقع. وهذا أفضل من أو ضمن نقطتين مئويتين من جميع النماذج الأخرى المتاحة للمقارنة. وحتى في ظل الظروف غير المثالية، فإنه يؤدي أداءً أفضل من العديد من المنافسين. عند تحديد موقع محدد، يكون ذلك صحيحًا بنسبة 82 بالمائة من الوقت، وهو يقع ضمن ثلاث نقاط من النماذج الأخرى.
لكن هذا النموذج جديد من حيث السرعة وتوفير الذاكرة. وهي أسرع بمرتين على الأقل من مثيلاتها، وتستخدم أقل من ثلث الذاكرة التي تحتاجها، وفقًا للباحثين. هذا المزيج يجعلها ذات قيمة للتطبيقات في أنظمة الملاحة وصناعة الدفاع.
يقول بينج رين، الذي يطور خوارزميات التعلم الآلي ومعالجة الإشارات في جامعة الصين للبترول (شرق الصين): “نحن ندرب الذكاء الاصطناعي على تجاهل الاختلافات السطحية في المنظور والتركيز على استخلاص نفس “المعالم الرئيسية” من كلا وجهتي النظر، وتحويلها إلى لغة بسيطة مشتركة”.
يعتمد البرنامج على طريقة تسمى تجزئة العرض المتقاطع العميق. بدلاً من محاولة مقارنة كل بكسل من صورة التجوّل الافتراضي بكل صورة منفردة في قاعدة البيانات العملاقة، تعتمد هذه الطريقة على التجزئة، مما يعني تحويل مجموعة من البيانات – في هذه الحالة، صور على مستوى الشارع والصور الجوية – إلى سلسلة من الأرقام الفريدة للبيانات.
وللقيام بذلك، تستخدم مجموعة أبحاث جامعة الصين للبترول نوعًا من نموذج التعلم العميق يسمى محول الرؤية الذي يقسم الصور إلى وحدات صغيرة ويجد الأنماط بين القطع. قد يجد النموذج في صورة ما تم تدريبه على تحديده كمبنى طويل أو نافورة دائرية أو دوار، ثم يقوم بتشفير نتائجه إلى سلاسل أرقام. يعتمد ChatGPT على بنية مشابهة، ولكنه يجد الأنماط في النص بدلاً من الصور. (يشير الحرف “T” في “GPT” إلى “المحول”.)
ويقول هونغ دونغ لي، الذي يدرس رؤية الكمبيوتر في الجامعة الوطنية الأسترالية، إن الرقم الذي يمثل كل صورة يشبه بصمة الإصبع. يلتقط رمز الرقم ميزات فريدة من كل صورة تسمح لعملية تحديد الموقع الجغرافي بتضييق نطاق التطابقات المحتملة بسرعة.
في النظام الجديد، تتم مقارنة الكود المرتبط بصورة معينة من مستوى الأرض بتلك الموجودة في جميع الصور الجوية الموجودة في قاعدة البيانات (للاختبار، استخدم الفريق صور الأقمار الصناعية للولايات المتحدة وأستراليا)، مما يؤدي إلى أقرب خمسة مرشحين للمباريات الجوية. يتم حساب متوسط البيانات التي تمثل جغرافية أقرب التطابقات باستخدام تقنية تزن المواقع الأقرب إلى بعضها البعض بشكل أكبر لتقليل تأثير القيم المتطرفة، وينبثق الموقع المقدر لصورة التجوّل الافتراضي.
تم نشر الآلية الجديدة لتحديد الموقع الجغرافي الشهر الماضي في معاملات IEEE في علوم الأرض والاستشعار عن بعد.
سريع وفعال في الذاكرة
يقول لي: “على الرغم من أن هذا البحث لا يمثل نموذجًا جديدًا تمامًا، إلا أنه يمثل تقدمًا واضحًا في هذا المجال”. ولأن هذه المشكلة قد تم حلها من قبل، فإن بعض الخبراء، مثل عالم الكمبيوتر ناثان جاكوبس من جامعة واشنطن في سانت لويس، ليسوا متحمسين لهذه المشكلة. يقول: «لا أعتقد أن هذه الورقة بحثية رائدة بشكل خاص».
لكن لي لا يتفق مع جاكوبس، فهو يعتقد أن هذا النهج مبتكر في استخدامه للتجزئة لجعل العثور على الصور متطابقًا بشكل أسرع وأكثر كفاءة في الذاكرة من التقنيات التقليدية. فهو يستخدم 35 ميغابايت فقط، في حين أن النموذج الأصغر التالي الذي فحصه فريق رين يتطلب 104 ميغابايت، أي حوالي ثلاثة أضعاف المساحة.
ويزعم الباحثون أن هذه الطريقة أسرع مرتين من الطريقة الأسرع التالية. عند مطابقة الصور على مستوى الشارع مع مجموعة بيانات التصوير الجوي للولايات المتحدة، كان وقت الوصيف للمطابقة حوالي 0.005 ثانية – تمكنت مجموعة البترول من العثور على موقع في حوالي 0.0013 ثانية، أي أسرع بأربع مرات تقريبًا.
يقول رين: “ونتيجة لذلك، أصبحت طريقتنا أكثر كفاءة من تقنيات تحديد الموقع الجغرافي التقليدية للصور”، ويؤكد لي أن هذه الادعاءات ذات مصداقية. يقول لي إن التجزئة “هي طريق راسخ للسرعة والاكتناز، وتتوافق النتائج المبلغ عنها مع التوقعات النظرية”.
على الرغم من أن هذه الكفاءات تبدو واعدة، إلا أن الأمر يتطلب المزيد من العمل لضمان نجاح هذه الطريقة على نطاق واسع، كما يقول لي. لم تدرس المجموعة التحديات الواقعية بشكل كامل، مثل التباين الموسمي أو السحب التي تحجب الصورة، مما قد يؤثر على قوة مطابقة الموقع الجغرافي. يقول رين إنه يمكن التغلب على هذا القيد من خلال تقديم صور من مواقع أكثر توزيعًا.
ومع ذلك، يقول الخبراء إن التطبيقات طويلة المدى (تتجاوز نظام GeoGuessr المتقدم للغاية) تستحق النظر فيها الآن.
هناك بعض الاستخدامات التافهة لتحديد الموقع الجغرافي للصور بشكل فعال، مثل تحديد الموقع الجغرافي تلقائيًا للصور العائلية القديمة، كما يقول جاكوبس. ولكن على الجانب الأكثر خطورة، يمكن لأنظمة الملاحة أيضًا استغلال طريقة تحديد الموقع الجغرافي مثل هذه الطريقة. يقول جاكوبس: إذا تعطل نظام تحديد المواقع العالمي (GPS) في سيارة ذاتية القيادة، فقد تكون هناك طريقة أخرى للعثور على الموقع بسرعة ودقة مفيدة. ويشير لي أيضًا إلى أنها يمكن أن تلعب دورًا في الاستجابة لحالات الطوارئ خلال السنوات الخمس المقبلة.
قد تكون هناك أيضًا تطبيقات في أنظمة الدفاع. يهدف مشروع Finder لعام 2011 من مكتب مدير الاستخبارات الوطنية إلى مساعدة محللي الاستخبارات على تعلم أكبر قدر ممكن من المعلومات عن الصور التي لا تحتوي على بيانات وصفية باستخدام البيانات المرجعية من المصادر بما في ذلك الصور العلوية، وهو هدف يمكن تحقيقه باستخدام نماذج مشابهة لهذه الطريقة الجديدة لتحديد الموقع الجغرافي.
يضع جاكوبس طلب الدفاع في سياقه: إذا أرسلت وكالة حكومية صورة لمعسكر تدريب إرهابي بدون بيانات وصفية، فكيف يمكن تحديد الموقع الجغرافي بسرعة وكفاءة؟ قد يكون تجزئة العرض المتقاطع العميق مفيدًا بعض الشيء.
من مقالات موقعك
مقالات ذات صلة حول الويب