تقنيات ضغط جوجل الجديدة تقلل بشكل كبير من استهلاك الذاكرة للذكاء الاصطناعي، مع تحسين الأداء بشكل سريع وسري عبر الأحمال الثقيلة وبيئات الأجهزة الحديثة.
تقنية Google TurboQuant: ثورة في تحسين كفاءة الذاكرة لأداء أسرع وأكثر دقة في نماذج اللغة الكبيرة
هل تبحث عن طريقة لتعزيز أداء نماذج اللغة الكبيرة (LLMs) وتقليل عبء الذاكرة بشكل كبير؟ تقدم شركة Google حلاً مبتكرًا يُعرف بـ “TurboQuant”، الذي يُعد خطوة ثورية في مجال الذكاء الاصطناعي، حيث يقلل بشكل فعال من استهلاك الذاكرة مع الحفاظ على دقة عالية، حتى في أكثر الأحمال demanding.
مقدمة: تحديات الذاكرة وأهمية الكاش في نماذج اللغة الكبيرة
تُعتمد نماذج اللغة الكبيرة بشكل كبير على هياكل الذاكرة الداخلية التي تخزن البيانات الوسيطة لتسريع عمليات المعالجة. من بين أهم هذه الهياكل، يأتي “ذاكرة المفتاح والقيمة” (key-value cache)، التي تعتبر بمثابة “مذكرة رقمية عالية السرعة” تساعد على تجنب العمليات الحسابية المكررة، مما يحسن من استجابة النموذج. إلا أن هذه التقنية تُعد أيضًا عقبة رئيسية، حيث أن المتجهات ذات الأبعاد العالية تستهلك كمية هائلة من الموارد.
مشكلة القيود على الأداء بسبب استهلاك الذاكرة
مع زيادة حجم النماذج، يصبح من الصعب إدارة هذا الطلب المتزايد على الذاكرة دون التأثير على سرعة الأداء أو الوصول إلى البيانات. الطرق التقليدية مثل التكميم (quantization)، التي تقوم بضغط الدقة الرقمية، غالبًا ما تؤدي إلى تضحيات، مثل انخفاض جودة المخرجات أو زيادة الحمل على الذاكرة بسبب الحاجة إلى تخزين ثوابت إضافية.
تقنية TurboQuant: حل ثوري لمحدودية الأداء
المرحلة الأولى: PolarQuant
يعتمد نظام TurboQuant على تقنية PolarQuant، التي تحول المتجهات من الإحداثيات الديكارتية القياسية إلى تمثيلات قطبية. بدلاً من تخزين مكونات الاتجاه المتعددة، تقوم هذه التقنية باختصار المعلومات إلى قيمتين رئيسيتين: نصف القطر والزاوية. هذا التحول يُقلل من الحاجة لإعادة التطبيع ويحد من الحمل الناتج عن الطرق التقليدية للتكميم، مما يوفر ضغطًا أكثر كفاءة على الذاكرة.
المرحلة الثانية: QJL (Quantized Johnson-Lindenstrauss)
بعد ذلك، يُطبق نظام QJL، الذي يعمل كطبقة تصحيحية. فبينما تتولى PolarQuant معظم عمليات الضغط، قد تترك بعض الأخطاء الصغيرة، ويعمل QJL على تقليل كل عنصر من عناصر المتجه إلى بت واحد، إما موجب أو سالب، مع الحفاظ على العلاقات الأساسية بين البيانات. هذه الخطوة تُحسن من دقة نتائج التركيز (attention)، التي تحدد مدى أولوية المعلومات خلال المعالجة.
نتائج واعدة وتطبيقات عملية
أظهرت اختبارات نظام TurboQuant قدرته على تقليل استهلاك الذاكرة بنسبة تصل إلى ستة أضعاف، مع الحفاظ على نتائج دقيقة. كما أنه يدعم التكميم حتى ثلاث بتات دون الحاجة إلى إعادة تدريب النموذج، مما يجعله متوافقًا مع الهياكل الحالية. بالإضافة إلى ذلك، حقق النظام زيادة ملحوظة في سرعة المعالجة، حيث أصبح بإمكان عمليات التركيز أن تُجرى حتى ثماني مرات أسرع مقارنةً بالعمليات التقليدية بدقة 32 بت.
فوائد عملية وتطلعات مستقبلية
- خفض تكاليف التشغيل من خلال تقليل الحاجة إلى موارد ذاكرة كبيرة.
- تسهيل نشر النماذج على الأجهزة ذات الموارد المحدودة، مثل الأجهزة المحمولة والموديلات المدمجة.
- تمكين استخدام نماذج أكثر تعقيدًا من خلال تحرير الموارد، بدلاً من تقليل حجم البنية التحتية.
على الرغم من أن النتائج تعتبر واعدة، إلا أن التأثير الحقيقي يعتمد على تطبيقات العالم الواقعي وتنوع الأحمال والأجهزة. إلا أن نظام TurboQuant يمثل خطوة مهمة نحو تحسين كفاءة الذكاء الاصطناعي، مع الحفاظ على الأداء والجودة.
تابع TechRadar على Google News للحصول على أحدث الأخبار والتقارير والتحليلات من خبرائنا، ولا تنسَ الضغط على زر المتابعة! كما يمكنك متابعة TechRadar على TikTok لمقاطع الفيديو الإخبارية والمراجعات، والحصول على تحديثات منتظمة عبر WhatsApp.
📌 هذا المقال تم إعادة تحريره باستخدام الذكاء الاصطناعي مع الحفاظ على المصدر الأصلي.
