تعرضت بيانات صحية حساسة من UK Biobank، وهو مستودع ضخم يضم السجلات الطبية لنحو 500 ألف متطوع بريطاني، للتسرب بشكل متكرر على منصات عامة مثل GitHub نتيجة أخطاء ارتكبها باحثون. وكشف تحقيق أجرته صحيفة Guardian عن عشرات الحوادث من هذا النوع، مما دفع UK Biobank لإصدار أكثر من 80 إشعاراً قانونياً لإزالة المحتوى من GitHub بين شهري يوليو وديسمبر من عام 2025 وحده، واستهدفت هذه الإشعارات مئات المستودعات البرمجية حول العالم. وبحسب باحث في شؤون الخصوصية يتتبع هذه الوقائع على منصة Hacker News، فقد أرسلت المؤسسة 110 إشعارات DMCA حتى الآن، شملت 197 مستودعاً برمجياً تعود لـ 170 مطوراً.
تكمن المشكلة في ممارسات الباحثين الذين حصلوا على تصاريح للوصول إلى بيانات UK Biobank بعد إزالة الهوية عنها، والتي تشمل تسلسلات Genome، وصوراً إشعاعية، وعينات دم، وتفاصيل عن نمط الحياة وسجلات المستشفيات، لدراسة أمراض مثل السرطان والخرف والسكري. وحتى أواخر عام 2024، كان بإمكان العلماء تحميل هذه البيانات على أجهزتهم الشخصية لتحليلها باستخدام أدوات مثل R أو Python. ومع استعجالهم لمشاركة الأكواد البرمجية على GitHub تلبيةً لمتطلبات المجلات العلمية والجهات الممولة التي تدعم "العلم المفتوح"، أدرج الكثيرون بالخطأ ملفات بيانات غير متبوعة، مثل ملفات CSV تحتوي على إحصائيات عن حالات المستشفيات. أحد الأمثلة البارزة شمل مجموعة بيانات تغطي تشخيصات ومواعيد عمليات جراحية لأكثر من 413 ألف مشارك، تضمنت تفاصيل مثل الجنس وشهر وسنة الميلاد، وبقيت متاحة عبر الإنترنت لفترة قبل حذفها.
ورغم أن الأسماء الكاملة أو العناوين لم تظهر في هذه التسريبات، إلا أن توفر معلومات جزئية يرفع بشكل كبير من مخاطر "إعادة تحديد الهوية". وبحسب ما ذكرته Guardian، فإن الربط بين تشخيصات المستشفيات المسربة وتفاصيل عامة متاحة — مثل تاريخ العمليات الجراحية لشخص متطوع وتفاصيل ميلاده — مكن المحققين من تحديد سجلات بعينها بدقة. أثار هذا الأمر مخاوف جدية حول الخصوصية في الأبحاث الصحية واسعة النطاق، خاصة وأن الحكومة البريطانية وسعت مؤخراً نطاق الوصول إلى بيانات UK Biobank ليشمل سجلات الممارسين العامين (GP records). وتواجه الجامعات الأوروبية، وهي من كبار مستخدمي هذا المورد، ضغوطاً متزايدة لمراجعة أخلاقيات التعامل مع البيانات وسد الفجوات التدريبية خلال مرحلة الانتقال إلى منصات سحابية آمنة مثل Research Analysis Platform التابعة لـ UK Biobank.
تأسست مؤسسة UK Biobank في عام 2003 من قبل وزارة الصحة وجمعيات خيرية بحثية، وهي تمنع منعاً باتاً مشاركة بيانات المشاركين خارج أنظمتها، وتلزم الباحثين بتوقيع اتفاقيات سرية. واستجابة لهذه التسريبات، كثفت المؤسسة من إجراءاتها، حيث بدأت بإصدار طلبات الإزالة، وإطلاق أداة Git Audit Tool لمسح المستودعات البرمجية بحثاً عن البيانات المكشوفة، ونشر أدلة لأفضل الممارسات عند استخدام GitHub، بالإضافة إلى تقديم تدريبات إضافية. كما أكد تقرير من BBC واقعة مرتبطة تم فيها عرض بيانات 500 ألف شخص للبيع في الصين، رغم أنه لم يتم الكشف عن معلومات تحديد هوية شخصية في تلك الحالة.
تسلط هذه التحديات التنظيمية الضوء على نقاط الضعف في محاولة الموازنة بين البحث العلمي المفتوح وأمن البيانات. استمرار التسريبات، حتى بعد مئات عمليات الحذف، يوضح كيف يمكن لممارسات شائعة مثل الإعدادات غير المكتملة لملفات .gitignore أن تقوض تدابير الحماية. وينادي الخبراء اليوم بضرورة وضع معايير أقوى لتعمية البيانات وتجهيلها، وتحسين آليات الإنفاذ، وزيادة الشفافية لحماية المتطوعين الذين تساهم بياناتهم في تحقيق طفرات طبية عالمية.
وبالنظر للمستقبل، تهدف عمليات التدقيق المستمرة وتوعية الباحثين التي تقوم بها UK Biobank إلى الحد من الانكشافات المستقبلية، لكن هذه الحوادث كشفت عن توترات أعمق في عصر العلم التشاركي. ومع استمرار ظهور البيانات على الإنترنت رغم كل الجهود، ينتظر المتطوعون المتضررون والمجتمع البحثي حلولاً جذرية تعيد الثقة في هذا المورد الحيوي.