خوارزمية التقدير التكيفي للحظات (Adam)

خوارزمية التقدير التكيفي للحظات (Adam) هي خوارزمية تحسين تُستخدم بشكل رئيسي لتدريب نماذج التعلم العميق. تجمع بين مزايا تقنيتين شائعتين للتحسين: AdaGrad و RMSProp، وتتكيف مع معدل التعلم لكل معامل بناءً على تقديرات اللحظات الأولى والثانية للتدرجات.

الميزات الرئيسية

  1. معدلات التعلم التكيفية:

    • تقوم خوارزمية Adam بحساب معدلات تعلم تكيفية لكل معامل من خلال النظر في كل من اللحظة الأولى (المتوسط) واللحظة الثانية (التباين غير المتمركز) للتدرجات.
  2. الزخم:

    • تتضمن الخوارزمية مفهوم الزخم لتسريع متجهات التدرج في الاتجاهات الصحيحة، مما يؤدي إلى تقارب أسرع.
  3. تصحيح التحيز:

    • تتضمن Adam تقديرات مصححة للتحيز للحظات الأولى والثانية لتعويض بداية التقديرات من الأصل، مما يساعد في استقرار عملية التعلم.

تفاصيل الخوارزمية

تحتفظ خوارزمية Adam بمتوسطين متحركين لكل معامل:

  • تقدير اللحظة الأولى (المتوسط) ($m_t$): $$ m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t $$
  • تقدير اللحظة الثانية (التباين) ($v_t$): $$ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 $$

حيث:

  • $g_t$ هو التدرج عند الخطوة الزمنية $t$.
  • $\beta_1$ و $\beta_2$ هما معاملات تحكم في معدلات الاضمحلال الأسية لهذه المتوسطات المتحركة، عادةً $\beta_1 = 0.9$ و $\beta_2 = 0.999$.

لتصحيح التحيز في هذه التقديرات، تستخدم Adam التقديرات التالية المصححة للتحيز:

  • تقدير اللحظة الأولى المصححة للتحيز: $$ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} $$
  • تقدير اللحظة الثانية المصححة للتحيز: $$ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} $$

يتم بعد ذلك حساب تحديثات المعاملات كالتالي: $$ \theta_{t+1} = \theta_t - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} $$

حيث:

  • $\theta_t$ هو المعامل عند الخطوة الزمنية $t$.
  • $\alpha$ هو معدل التعلم.
  • $\epsilon$ هو ثابت صغير (مثل $10^{-8}$) يُضاف لتحقيق الاستقرار العددي.

المزايا

  • الكفاءة: Adam كفء من حيث الحسابات ويحتاج إلى ذاكرة منخفضة.
  • الصلابة: يعمل بشكل جيد مع المشكلات التي تحتوي على مجموعات بيانات كبيرة ومساحات معاملات عالية الأبعاد.
  • التعديل التلقائي: تقوم الخوارزمية بتعديل معدلات التعلم للمعاملات تلقائيًا، مما يمكن أن يؤدي إلى تقارب أسرع.

حالات الاستخدام

تُستخدم Adam على نطاق واسع في تطبيقات التعلم العميق المختلفة، بما في ذلك:

  • الشبكات العصبية الالتفافية (CNNs)
  • الشبكات العصبية المتكررة (RNNs)
  • نماذج المحولات

تعد Adam فعالة بشكل خاص في السيناريوهات التي تكون فيها التدرجات متناثرة أو عندما تتضمن المشكلة دالات هدف ضوضائية أو غير ثابتة.

ملخص

خوارزمية Adam هي خوارزمية تحسين بمعدل تعلم تكيفي تستفيد من اللحظات الأولى والثانية للتدرجات لتعديل معدلات التعلم ديناميكيًا، مما يؤدي إلى تقارب أسرع وأكثر استقرارًا أثناء تدريب نماذج التعلم العميق. كفاءتها وصلابتها وقدرتها على التعديل التلقائي تجعلها خيارًا شائعًا لتحسين الشبكات العصبية المعقدة.

[طريقة آدم لحساب معدلات التعلم التكيفي]