تسريب بيانات التدريب لـ ChatGPT وانتهاك الخصوصية

تسريب بيانات التدريب لـ ChatGPT وانتهاك الخصوصية، يقول فريق Google's DeepMind في الوقت الحالي، تشهد برامج الذكاء الاصطناعي، مثل ChatGPT، طفرة في استكشاف وسائل لكسر حواجز الأمان، وخاصة في عملية "التوجيه"، حيث يتم جعل البرامج تبقى ضمن إطارات الحماية، تؤدي دور مساعد مفيد دون إخراج إخراج مثير للرفض.

مجموعة من الباحثين في مختبر الذكاء الاصطناعي التابع لشركة جوجل Deep mind اكتشفوا طريقة سهلة بتخلي ChatGPT يسرب بيانات التدريب وينتهك الخصوصية وده بيحصل بمجرد لما تطلب منه يكرر مثلا كلمة (قصيدة) الى ما لا نهاية.

وكمان قدروا يتلاعبوا بروبوت الدردشة علشان يقول على أسماء المستخدمين وارقامهم و هواتفهم وعناوينهم.

اكتشاف جديد من Google's DeepMind

فريق من باحثي Google's DeepMind اكتشفوا وسيلة أكثر بساطة لكسر التوجيه المبرمج لـ ChatGPT. من خلال كتابة أمر في الواجهة وطلب ChatGPT تكرار كلمة مثل "قصيدة" بشكل لا نهائي، وجدوا أنهم يمكنهم فرض البرنامج على إخراج مقاطع كاملة من الأدب تحتوي على بيانات التدريب، على الرغم من أن هذا النوع من التسريب لا يفترض أن يحدث مع البرامج الموجهة.

ظاهرة "استخراج الحفظ"

يمكن أيضًا التحكم في البرنامج لاستنساخ أسماء الأفراد وأرقام هواتفهم وعناوينهم، مما يشكل انتهاكًا للخصوصية بعواقب خطيرة. يطلق الباحثون على هذه الظاهرة "استخراج الحفظ"، وهي هجوم يجبر البرنامج على الكشف عن الأشياء التي قد قام بتخزينها في الذاكرة.

الهجوم والبحث العلمي

في ورقة البحث العلمي "استخراج قابل للتوسيع لبيانات التدريب من نماذج اللغة (الإنتاجية)"، والتي نشرت على خادم الإعداد المسبق arXiv، يشرح الباحثون عن هجومهم على الذكاء الاصطناعي التوليدي. يهدف الهجوم إلى إجبار ChatGPT على التباين عن توجيهه المبرمج والعودة إلى وضعية تشغيل أبسط.

عملية التدريب والتوجيه

تتم بناء برامج الذكاء الاصطناعي التوليدية، مثل ChatGPT، من قبل علماء البيانات من خلال عملية تسمى التدريب، حيث يتعرض البرنامج في حالته الأولية، غير المكتملة تمامًا، لمليارات البايتات من النصوص، بعضها من مصادر الإنترنت العامة، مثل ويكيبيديا، وبعضها من الكتب المنشورة.

التوجيه والتصدي للتسريب

وظيفة التدريب الأساسية هي جعل البرنامج يعكس أي شيء يُعطى له، عملية ضغط النص ومن ثم فكه. ومن المفترض، في نظرية، أن يتمكن البرنامج، بمجرد التدريب، من إعادة تناول بيانات التدريب إذا تم تقديم مقتطف صغير من النص من ويكيبيديا وتشجيع الرد المشابه.

الهجوم الذي اكتشفه فريق Google's DeepMind

لكن، بالفعل، يتلقى ChatGPT، وبرامج أخرى موجهة، طبقة إضافية من التدريب. يتم ضبطها بحيث لن تقوم ببساطة بتنفيذ النص، ولكنها ستستجيب بإخراج من المفترض أن يكون مفيدًا، مثل الإجابة على سؤال أو المساعدة في تطوير تقرير كتاب.

استراتيجية الهجوم ونتائجه

لفرض ChatGPT على التباين عن نفسه بطريقة غير مفيدة، ابتكر باحثونا استراتيجية طلب من البرنامج تكرار بعض الكلمات بشكل لا نهائي. وبعد عدة محاولات، بدأ البرنامج في الانحراف إلى مقتطفات غير منطقية من النصوص. وعلى الرغم من ذلك، تبين أن جزءًا صغيرًا من التوليدات ينحرف إلى التذكر: بعض الجمل تم نسخها مباشرة من بيانات التدريب.

استنتاجات الباحثين والنتائج

في محاولاتهم، اكتشف الباحثون أكثر من 10,000 مثال فريد لـ "تذكر" من مجموعات البيانات يتم إعادة تقديمها. ورغم النجاح، يشير الباحثون إلى أن هناك المزيد يمكن اكتشافه إذا استمرت التجارب. وتم تشغيل التجربة على جهاز واحد في Google Cloud باستخدام معالج إنتل Sapphire Rapids Xeon بسعة 1.4 تيرابايت من الذاكرة الديناميكية. ولكن، يُشيرون إلى أن الوصول إلى حواسيب أكثر قوة يمكن أن يسمح لهم باختبار ChatGPT بشكل أوسع والعثور على نتائج أكثر.

الأمان والخصوصية في عالم الذكاء الاصطناعي

من هذه الدراسة، يتبين أن استراتيجية التوجيه مجدية باعتبارها مجالًا عامًا للاستكشاف. ومع ذلك، يُظهر الباحثون أنه لا يكفي تمامًا لحل مشاكل الأمان والخصوصية ومخاطر السوء في أسوأ الحالات.

الخاتمة:

تثبت الدراسة الأخيرة من Google's DeepMind أن برامج الذكاء الاصطناعي مثل ChatGPT قد تكون عرضة لتسريب بيانات التدريب، مما يعرض الخصوصية للخطر. إنها دعوة لمطوري الذكاء الاصطناعي لتحسين استراتيجيات التوجيه والحماية من هجمات استخراج الحفظ. يُشدد على ضرورة مواصلة البحث والابتكار لتقديم تكنولوجيا ذكية آمنة وخصوصية للمستخدمين.

مدونة عرباوي التقنية