الهجمات العدائية على التعلم الآلي: ما هي وكيفية منعها

قم بترقية مؤسستك في مجال تكنولوجيا البيانات والاستراتيجية تحويل 2021.


يعد التعلم الآلي العكسي ، وهو تقنية تسعى إلى خداع النماذج ببيانات مضللة ، تهديدًا متزايدًا لمجتمع أبحاث الذكاء الاصطناعي والتعلم الآلي. السبب الأكثر شيوعًا هو وجود خلل في نموذج التعلم الآلي. الهجوم العدائي غير صحيح أو مع وجود بيانات شخصية غير صحيحة ، يجب تقديمه كتدريب ، أو إدخال بيانات تصميم ضار لخداع النماذج المدربة بالفعل.

في مذكرة التقرير المؤقت للذكاء الاصطناعي 2019 2019 باسم لجنة الأمن القومي الأمريكية ، أ صغير جدا تذهب نسبة مئوية من أبحاث الذكاء الاصطناعي الحالية نحو الدفاع عن أنظمة الذكاء الاصطناعي ضد الإجراءات المضادة. من الممكن مهاجمة بعض الأنظمة المستخدمة بالفعل. على سبيل المثال ، من خلال وضع بعض الملصقات الصغيرة على الأرض ، أظهر الباحثون قدرتهم على ذلك التسبب في قيادة السيارة الأوتوماتيكية للتحرك في المسار المقابل لحركة المرور. أظهرت دراسات أخرى أنه يمكن أن يسبب تغيرات لا رجعة فيها في الصورة يتحرك نظام التحليل الطبي يمكن تصنيف الشامة الحميدة على أنها قاتلة ، ويمكن لهذه القطع من الشريط أن تخدع بشكل غير صحيح نظام رؤية الكمبيوتر. تصنيف علامة توقف كعلامة حد للسرعة.

أ. قد يترافق التبني المتزايد مع زيادة الهجمات المعادية. إنه سباق تسلح لا نهاية له ، ولكن لسوء الحظ ، هناك مقاربات فعالة اليوم لقمع أسوأ الهجمات.

نوع الهجوم المضاد

غالبًا ما يتم تصنيف الهجمات ضد نماذج الذكاء الاصطناعي بثلاثة محاور أساسية – التأثيرات على المصنف ، ونقاط الضعف الأمنية ، والكثافة ، وخصوصياتها – ويمكن أيضًا تصنيفها على أنها “صندوق أبيض” أو “صندوق أسود”. في هجمات الصندوق الأبيض ، يمكن للمهاجم الوصول إلى معلمات النموذج ، بينما في هجمات الصندوق الأسود ، لا يستطيع المهاجم الوصول إلى هذه المعلمات.

يمكن أن يؤثر الهجوم على المصنف – على سبيل المثال ، النموذج – من خلال اعتراض النموذج ، بينما يوفر خرق الأمان بيانات ضارة مصنفة قانونيًا. يحاول الهجوم المستهدف السماح بتطفل أو إعاقة معينة أو بدلاً من ذلك خلق حالة من الفوضى العامة.

هجمات السرقة هي أكثر أنواع الهجمات شيوعًا ، حيث يتم إجراء تعديلات لاكتشاف البيانات أو تصنيفها على أنها شرعية. لا تشمل السرقة التأثير على البيانات المستخدمة لتدريب النموذج ، لكنها تفعل ذلك هو يمكن مقارنة مرسلي البريد العشوائي والمتسللين بالطريقة التي يتم بها إتلاف رسائل البريد الإلكتروني العشوائية والبرامج الضارة. مثال على الانتحال هو البريد العشوائي المستند إلى الصور والذي يتم فيه تضمين محتوى البريد العشوائي في صورة الترياق لتجنب تحليل نماذج مكافحة البريد العشوائي. مثال آخر هو الهجمات الخادعة ضد أنظمة المصادقة البيومترية التي تعمل بالذكاء الاصطناعي.

السمية ، وهي نوع آخر من الهجمات ، هي “التلوث العداءي” للبيانات. غالبًا ما يتم إعادة تدريب أنظمة التعلم الآلي باستخدام البيانات التي تم جمعها أثناء التشغيل ، ويمكن للمهاجم أن يسمم هذه البيانات عن طريق حقن عينات سامة تتداخل لاحقًا مع عملية إعادة التدريب. يمكن للخصم إدخال البيانات أثناء مرحلة التدريب التي تم تصنيفها بشكل غير صحيح على أنها غير ضارة عندما تكون في الواقع سيئة. على سبيل المثال ، نماذج اللغات الكبيرة مثل OpenAI GPT-3 يمكن أن تكشف عن معلومات حساسة وشخصية عند تغذية كلمات وعبارات معينة ، بحث معروض.

وفي الوقت نفسه ، تتضمن سرقة النموذج ، والتي تسمى أيضًا استخراج النموذج ، نظام التعلم الآلي الخاص بالخصم “الصندوق الأسود” إما لإعادة هيكلة النموذج أو استخراج البيانات المدربة فيه. يمكن أن يؤدي ذلك إلى مشكلات عندما تكون بيانات التدريب أو النموذج نفسه حساسًا وسريًا. على سبيل المثال ، يمكن استخدام سرقة النموذج لاستخراج نموذج تداول الأسهم الخاص ، والذي يمكن للخصم بعد ذلك استخدامه لتحقيق مكاسب مالية.

غزو ​​البرية

تم توثيق العديد من الأمثلة على الهجمات الظرفية حتى الآن. أظهر أحدهم أنه من الممكن طباعة لعبة Cretal 3D التي تصنف تعريف كائن Google AI على أنه بندقية ، بغض النظر عن الزاوية التي يتم تصوير السلحفاة فيها. في هجوم آخر ، بدت صورة كلب معدلة آليًا مثل قطة لكل من أجهزة الكمبيوتر والبشر. إن ما يسمى “تنسيق الخصومةتم تصميم نظام التعرف على الوجوه ولوحة الترخيص على النظارات أو الملابس لخداع القراء. وقد ابتكر الباحثون مدخلات صوتية معادية لتمييز الأوامر للمساعدين الأذكياء في الصوت الناعم.

في ورق أظهر باحثون من Google وجامعة كاليفورنيا في بيركلي ، الذين نُشروا في أبريل / نيسان ، أن المصنفات الجنائية الممتازة – حتى أنظمة الذكاء الاصطناعي المدربة على التمييز بين المواد الحقيقية والاصطناعية – معرضة بشدة للهجمات المضادة. هذه مشكلة ، إن لم تكن جديدة بالضرورة ، بالنسبة للمنظمات التي تحاول إنتاج أجهزة الكشف عن الوسائط المزيفة ، على وجه الخصوص ارتفاع النيزك داخل التزييف العميق المحتوى عبر الإنترنت.

أحد الأمثلة الحديثة الأكثر شهرة هو Microsoft Tie ، وهو روبوت محادثة على Twitter مبرمج لتعلم المشاركة في المحادثات من خلال التفاعل مع مستخدمين آخرين. كانت مايكروسوفت تنوي أن تشارك التايلانديين في “محادثات غير رسمية ومرحة” ، لاحظ المتصيد عبر الإنترنت أن النظام يحتوي على عوامل تصفية غير كافية وبدأ في تغذية التغريدات المسيئة والمسيئة للصراف. كلما زاد تفاعل هؤلاء المستخدمين ، زادت تغريدات Tyco المسيئة ، مما أجبر شركة Microsoft أغلق النبات بعد ساعة واحدة فقط من إطلاقه.

مساهم في VentureBeat باسم Ben Dixon ملاحظاتكانت هناك زيادة في عدد التحقيقات في الهجمات المثيرة للجدل في السنوات الأخيرة. في 201.، بينما لم يكن هناك أي مستندات في تعليم آلات الإعلان تم تقديمها إلى خادم الطباعة Arxiv.org في عام 2020، حوالي 1100 وثيقة كانت في أمثلة وهجمات متناقضة. كانت طرق الهجوم والدفاع العدائية أيضًا من أبرز المؤتمرات الرئيسية ، بما في ذلك Neurips و IMLR و DEF CON و Black Hat و Usenix.

حصانة

مع الاهتمام المتزايد بالهجمات المضادة والتقنيات التي يمكنها مكافحتها ، أصبحت الشركات الناشئة شائعة مقاومة الذكاء الاصطناعي المضي قدمًا في المنتجات التي من الواضح أنها خوارزميات “صارمة” ضد المعارضين. بالإضافة إلى هذه الحلول التجارية الجديدة ، فإن الأبحاث الناشئة تحمل وعودًا للشركات التي تستثمر في الأمن ضد الهجمات العدائية.

تتمثل إحدى طرق اختبار نماذج التعلم الآلي في المتانة في هجوم أحصنة طروادة الذي يتضمن تعديل نموذج للاستجابة لمشغل إدخال يعطيه إجابة خاطئة. لجعل هذه الاختبارات أكثر تكرارًا وقابلية للتوسع ، طور باحثون في جامعة جونز هوبكنز إطار عمل. حصان طروادة، تقوم مجموعات من الأجهزة بإنشاء مجموعات البيانات المشغلة والنماذج المرتبطة بأحصنة طروادة. ويقولون إنه يساعد الباحثين على فهم تأثيرات تكوينات مجموعات البيانات المختلفة على نموذج “حصان طروادة” الناتج والاختبار التفصيلي لطرق اكتشاف أحصنة طروادة الجديدة.

فريق Johns Hopkins ليس الوحيد الذي يواجه تحدي هجوم المغامرة في التعلم الآلي. في فبراير ، أصدر باحثو Google واحدة ورق وصف إطار العمل الذي يكتشف الهجمات أو يسمح للمهاجمين باستهداف الصور المطابقة للفئة المستهدفة من الصور. عرض مربع أدوات Baidu و Microsoft و IBM و Salesforce – Adboxو Counterfitو صندوق أدوات قوة الخصومة، و صالة رياضية قوية – لإنتاج إعلانات يمكن أن تخدع النماذج في أطر مثل MxNet و Keras و Facebook’s PyTorch و Caffe2 و TensorFlow من Google و Baidu’s Paddle Paddle. وقد أطلق مختبر علوم الكمبيوتر والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا مؤخرًا ما يسمى بالجهاز TextFooler يولد نصًا مضادًا للإعلان لتعزيز نموذج اللغة الطبيعية.

في الآونة الأخيرة ، 11 مؤسسة ، بما في ذلك Microsoft ، وشركة Meter Corporation غير الربحية ، و IBM ، و Nvidia ، و Airbus ، و Bosch صدر ل مصفوفة مخاطر غسل الأموال عن طريق الخصومة، إطار عمل مفتوح يركز على الصناعة مصمم لمساعدة محللي الأمن على اكتشاف التهديدات الفورية والاستجابة لها وتوفيرها ضد أنظمة التعلم الآلي. تقول Microsoft إنها عملت على بناء تزلج بمقياس يدير الجهات الفاعلة الخبيثة باستخدام نموذج التعلم الآلي لتقويضه ، مما يعزز استراتيجيات المراقبة حول نظام المهام الحرجة للمؤسسة.

يمكن للمستقبل أن يجلب منظورات خارجة عن المألوف ، بما في ذلك العديد من وجهات النظر المستوحاة من علم الأعصاب. على سبيل المثال ، وجد الباحثون في MIT و MIT-IBM Watson AI Lab خريطة مستقيمة إن رؤية الثدييات لقشرة الثدييات في الشبكة العصبية العميقة تجعل أنظمة الذكاء الاصطناعي أكثر قوة في هجمات المتمردين. في حين أن الذكاء الاصطناعي العدائي يمكن أن يكون سباق تسلح لا ينتهي ، فإن هذه الأنواع المختلفة من الحلول تثير التوقعات بأن المهاجمين لن تكون لهم اليد العليا دائمًا – وقد لا يكون للذكاء البيولوجي الكثير من الإمكانات بعد

VentureBeat

تتمثل مهمة Ventbret في أن تكون فئة مدينة رقمية لأولئك الذين يرغبون في التعرف على التكنولوجيا والأعمال التحويلية. يوفر موقعنا المعلومات اللازمة حول تقنيات واستراتيجيات البيانات لإرشادك عندما تقود مؤسستك. ندعوك لتصبح عضوًا في مجتمعنا للوصول إلى:

  • معلومات محدثة حول الموضوعات التي تهمك
  • نشراتنا الإخبارية
  • محتوى رائد الفكر والوصول إلى أحداثنا القيمة ، على سبيل المثال تحويل 2021: يتعلم أكثر
  • ميزات الشبكات والمزيد

أصبح عضوا

Leave a Comment

x