ملخصات الأبحاث

تدريب الشبكة العصبية باستخدام ذاكرة تناظرية

.S. Ambrogio et al
  • Published online:

يمكن أن يكون تدريب الشبكة العصبية بطيئًا ومستنفدًا للطاقة، نتيجة لضرورة نقل بيانات الوزن للشبكة بين رقائق الذاكرة الرقمية التقليدية، ورقائق المعالج. يمكن للذاكرة التناظرية غير المتطايرة تسريع خوارزمية تدريب الشبكة العصبية، التي تُعرف بـ"الانتشار العكسي"، وذلك عن طريق إجراء عمليات مضاعفة ومراكمة متوازية في النطاق التناظري بموقع بيانات الوزن، إلا أن مستويات الدقة التصنيفية لمثل هذا التدريب في الموقع باستخدام أجهزة الذاكرة غير المتطايرة تكون في العموم أقل من مثيلاتها في حالة التدريب القائم على البرمجيات. ويرجع هذا إلى وجود مجال ديناميكي غير كاف، وعدم تَماثُل مفرط لتحديث بيانات الوزن.

في هذا البحث، يشرح الباحثون تطبيقات للشبكة العصبية تختلط فيها الأجهزة بالبرمجيات، وتتضمن ما يصل إلى 204,900 تشابك عصبي، وتجمع ما بين التخزين طويل الأمد في ذاكرة التغير الطَّوْري، والتحديث شبه الخطي في المكثفات المتطايرة، ونقل بيانات الوزن بـ’انعكاس للقطبية‘؛ لإبطال الفوارق المتأصلة من جهاز إلى آخر. يحقق الباحثون مستويات دقة تعميمية (على بيانات لم تُر مسبقًا) مكافئة لتلك الخاصة بالتدريب القائم على البرمجيات على مجموعات بيانات متنوعة وشائعة الاستخدام لاختبار تعلم الآلة (MNIST، وMNIST-backrand، وCIFAR-10، وCIFAR-100). إن كفاءة الطاقة الحوسبية التي تصل إلى 28,065 مليار عملية في الثانية لكل وات، والطاقة الإنتاجية لوحدة المساحة، التي تصل إلى 3.6 تريليون عملية في الثانية لكل ملِّيمتر مربع – اللتين قام الباحثون بحسابهما لخدمة أغراض التطبيق الذي أجروه – تتجاوزان مثيلتيهما الخاصتين بوحدات معالجة الرسوم المستخدَمة حاليًّا، وذلك بمقدار قيمتين أُسِّيّتين.

يوفر هذا العمل مسارًا للتوصل إلى مُسرِّعات للأجهزة، تتسم بسرعتها وكفاءتها من حيث استخدام الطاقة، وبالأخص على طبقات الشبكة العصبية المتصلة بالكامل.