أفضل 7 تقنيات لتخزين البيانات مؤقتًا لأحمال عمل الذكاء الاصطناعي
في الذكاء الاصطناعي، تخزين البيانات مؤقتًا يمكن أن يؤدي تخزين البيانات المستخدمة بشكل متكرر إلى تحسين الأداء بشكل كبير وتقليل التكاليف من خلال الوصول السريع إليها. وهذا أمر بالغ الأهمية للتعامل مع مجموعات البيانات الكبيرة والحسابات المتكررة، وخاصة في التطبيقات مثل برامج الدردشة الآلية أو الأدوات التي تعمل بالذكاء الاصطناعي. فيما يلي 7 تقنيات رئيسية للتخزين المؤقت ينبغي عليك أن تعرف:
- التخزين المؤقت في الذاكرة:يخزن البيانات في ذاكرة الوصول العشوائي (RAM) للوصول إليها بسرعة فائقة. مثالي لمهام الذكاء الاصطناعي في الوقت الفعلي.
- التخزين المؤقت الموزع:نشر البيانات عبر عقد متعددة، مما يضمن قابلية التوسع و التسامح مع الخطأ. الأفضل للأنظمة واسعة النطاق.
- التخزين المؤقت الهجين:يجمع بين التخزين المؤقت داخل الذاكرة والتخزين المؤقت الموزع لتحقيق التوازن بين السرعة وقابلية التوسع.
- التخزين المؤقت للحافة:تعمل على معالجة البيانات محليًا بالقرب من المستخدم، مما يقلل من زمن الوصول. رائعة لإنترنت الأشياء والإعدادات الموزعة جغرافيًا.
- التخزين المؤقت الفيدرالي:مزامنة ذاكرة التخزين المؤقت عبر المواقع، والحفاظ على الخصوصية والأداء. مفيد في أنظمة الرعاية الصحية أو الأنظمة متعددة الأطراف.
- التخزين المؤقت للمطالبات:يعمل على تحسين أداء LLM من خلال إعادة استخدام المطالبات والاستجابات السابقة. يقلل من زمن الوصول والتكاليف.
- التخزين المؤقت للتوسع التلقائي:يضبط موارد ذاكرة التخزين المؤقت ديناميكيًا بناءً على الطلب. مثالي لأحمال العمل المتقلبة.
مقارنة سريعة
| تقنية | الفائدة الرئيسية | أفضل حالة استخدام |
|---|---|---|
| في الذاكرة | أسرع سرعات الوصول | المعالجة في الوقت الحقيقي |
| موزعة | قابلية التوسع | التطبيقات واسعة النطاق |
| هجين | الأداء المتوازن | أحمال العمل المختلطة |
| حافة | انخفاض زمن الوصول | الأنظمة الموزعة جغرافيا |
| متحدة | الخصوصية والتعاون | الحوسبة متعددة الأطراف |
| اِسْتَدْعَى | تحسين درجة الماجستير في القانون | معالجة اللغة الطبيعية |
| التوسع التلقائي | استخدام الموارد الديناميكي | أحمال العمل المتغيرة |
تعالج هذه التقنيات تحديات الذكاء الاصطناعي الشائعة مثل أوقات الاستجابة البطيئة والتكاليف المرتفعة وقضايا قابلية التوسع. من خلال اختيار استراتيجية التخزين المؤقت المناسبة، يمكنك جعل أنظمة الذكاء الاصطناعي أسرع وأكثر كفاءة وفعالية من حيث التكلفة.
استراتيجيات تخزين البيانات مؤقتًا لتحليل البيانات والذكاء الاصطناعي
1. التخزين المؤقت في الذاكرة
تعمل تقنية التخزين المؤقت في الذاكرة على تسريع أحمال عمل الذكاء الاصطناعي من خلال تخزين البيانات مباشرة في ذاكرة الوصول العشوائي، مما يتخطى الوصول البطيء إلى القرص. تعمل هذه الطريقة على تقليص أوقات استرجاع البيانات وتعزيز سرعات المعالجة، مما يجعلها مثالية لتطبيقات الذكاء الاصطناعي في الوقت الفعلي.
من الأمثلة الرائعة على ذلك شركة Nationwide Building Society. ففي مايو 2022، استخدمت RedisGears وRedisAI مع التخزين المؤقت في الذاكرة لتعزيز نموذج BERT Large Question Answering Transformer الخاص بها. ومن خلال ترميز الإجابات المحتملة مسبقًا وتحميل النموذج في شظايا Redis Cluster، نجحت الشركة في تقليل وقت الاستدلال من 10 ثوانٍ إلى أقل من ثانية واحدة.
"مع Redis، لدينا الفرصة لحساب كل شيء مسبقًا وتخزينه في الذاكرة، ولكن كيف نفعل ذلك؟" - أليكس ميخاليف، مهندس الذكاء الاصطناعي/التعلم الآلي في Nationwide Building Society
تعتمد نتائج التخزين المؤقت في الذاكرة بشكل كبير على الاستراتيجية المختارة. فيما يلي مقارنة سريعة للأساليب الشائعة:
| استراتيجية التخزين المؤقت | تأثير الأداء | مثالي لـ |
|---|---|---|
| تخزين الكلمات الرئيسية | البحث عن المطابقة الدقيقة | أنماط الاستعلام البسيطة |
| التخزين المؤقت الدلالي | استجابات أسرع بـ 15 مرة | الاستعلامات المعقدة التي تعتمد على السياق |
| النهج الهجين | 20-30% تفريغ الاستعلام | أحمال العمل المتوازنة |
للحصول على أقصى استفادة من التخزين المؤقت في الذاكرة، ركز على الممارسات الرئيسية التالية:
- إدارة حجم ذاكرة التخزين المؤقت:العثور على التوازن الصحيح بين استخدام الذاكرة والأداء.
- حداثة البيانات:قم بتعيين قواعد انتهاء صلاحية ذاكرة التخزين المؤقت استنادًا إلى عدد مرات تغيير بياناتك.
- عتبات التشابه:ضبط معلمات المطابقة لتحسين معدلات الوصول إلى ذاكرة التخزين المؤقت.
بالنسبة لنماذج اللغات الكبيرة (LLMs)، يمكن للتخزين المؤقت في الذاكرة أن يقلل من أوقات الاستجابة بما يصل إلى 80%، مما يجعله بمثابة تغيير كبير لبرامج الدردشة الآلية وأنظمة الأسئلة والأجوبة. ومع ذلك، فإن تكلفته الأعلى تعني أنك ستحتاج إلى تقييمه بعناية لمعرفة ما إذا كان يناسب حالة الاستخدام الخاصة بك.
بعد ذلك، دعنا نتعمق في التخزين المؤقت الموزع وكيفية معالجته لقابلية التوسع لأحمال عمل الذكاء الاصطناعي واسعة النطاق.
2. التخزين المؤقت الموزع
يرتقي التخزين المؤقت الموزع بالتخزين المؤقت في الذاكرة إلى المستوى التالي من خلال نشر البيانات عبر عقد متعددة. وعلى عكس التخزين المؤقت في الذاكرة على خادم واحد، تم تصميم هذا النهج للتعامل مع مهام الذكاء الاصطناعي واسعة النطاق بشكل أكثر فعالية.
من الأمثلة الرائعة على ذلك استخدام NVIDIA Triton لـ Redis للتخزين المؤقت الموزع. أثناء الاختبارات على Google Cloud Platform باستخدام نموذج DenseNet، اقترن Triton بـ Redis المُدار 329 استدلال في الثانية مع متوسط زمن انتقال يبلغ 3,030 ميكروثانية. بدون التخزين المؤقت، لم يحقق النظام سوى 80 استدلال في الثانية مع زمن انتقال أعلى بكثير 12,680 ميكروثانية.
| طريقة التخزين المؤقت | الاستدلالات/الثانية | زمن الوصول (ميكروثانية) |
|---|---|---|
| لا يوجد تخزين مؤقت | 80 | 12,680 |
| موزعة (Redis) | 329 | 3,030 |
لماذا يعمل التخزين المؤقت الموزع
وفيما يلي بعض الفوائد الرئيسية:
- قابلية التوسع:أضف المزيد من العقد مع نمو بياناتك، مما يضمن الأداء المتسق.
- توفر عالي:يستمر النظام في العمل حتى لو فشلت بعض العقد.
- الاستخدام الفعال للموارد:يقلل الحمل على الخوادم الفردية، مما يجعل العمليات أكثر سلاسة.
- تقليل البدايات الباردة:يحافظ على ثبات الأداء أثناء إعادة التشغيل.
"بشكل أساسي، من خلال تفريغ التخزين المؤقت إلى Redis، يمكن لـ Triton تركيز موارده على دوره الأساسي - تشغيل الاستدلالات." - ستيف لوريلو، مهندس ميداني أول، Redis؛ وريان ماكورميك، مهندس برمجيات أول، NVIDIA؛ وسام بارتي، مهندس رئيسي، Redis
تعد هندسة مستودع الكائنات اللامركزية (DORA) مثالاً آخر مثيرًا للإعجاب، حيث تدير ما يصل إلى 100 مليار قطعة على وحدات تخزين قياسية. وهذا أمر بالغ الأهمية بشكل خاص لأحمال عمل الذكاء الاصطناعي حيث يمكن أن تصل تكلفة وحدات معالجة الرسومات إلى ما يزيد عن $30,000 دولار أمريكي لكل وحدة.
لجعل التخزين المؤقت الموزع أكثر فعالية، فكر في تنفيذ ما يلي:
- وضع المجموعة لتحسين إمكانية التوسع.
- التكرار لضمان توفر البيانات.
- سياسات الإخلاء لإدارة الذاكرة.
- التخزين المؤقت المحلي للعقدة للوصول بشكل أسرع.
على الرغم من أن التخزين المؤقت الموزع قد يؤدي إلى تأخيرات بسيطة في الشبكة، فإن الفوائد مثل توسيع نطاق الوصول إلى الذاكرة والتسامح مع الأخطاء تفوق العيوب بكثير. يمكن لأدوات مثل AWS Auto Scaling وAzure Autoscale المساعدة في تعديل الموارد ديناميكيًا، مما يجعل ذاكرة التخزين المؤقت لديك سريعة الاستجابة وفعالة من حيث التكلفة.
بعد ذلك، سنتعمق في التخزين المؤقت الهجين وكيفية موازنة احتياجات أعباء العمل المختلفة.
3. التخزين المؤقت الهجين
يجمع التخزين المؤقت الهجين بين سرعة التخزين المؤقت في الذاكرة وقابلية التوسع في التخزين المؤقت الموزع، مما يوفر حلاً متوازنًا لأحمال عمل الذكاء الاصطناعي المتطلبة. كما يعالج مشكلات زمن الوصول في الأنظمة الموزعة وقابلية التوسع المحدودة للإعدادات في الذاكرة، مما يوفر أداءً ثابتًا لمهام الذكاء الاصطناعي المعقدة.
فوائد الأداء
يمكن أن يؤدي استخدام التخزين المؤقت الهجين مع Redis إلى تحسين سرعات الاستدلال بما يصل إلى 4xتتعامل ذاكرات التخزين المؤقت المحلية مع البيانات التي يتم الوصول إليها بشكل متكرر، بينما تتعامل ذاكرات التخزين المؤقت الموزعة مع مجموعات بيانات مشتركة أكبر حجمًا.
| نوع ذاكرة التخزين المؤقت | نقاط القوة | أفضل حالات الاستخدام |
|---|---|---|
| ذاكرة التخزين المؤقت المحلية | الوصول السريع أثناء العملية | معلمات النموذج التي يتم الوصول إليها بشكل متكرر |
| ذاكرة التخزين المؤقتة الموزعة | قابلية التوسعة والتوافر العالي | مجموعات البيانات المشتركة، والبيانات عبر النسخ |
| هجين مركب | السرعة المتوازنة وقابلية التوسع | أحمال عمل الذكاء الاصطناعي المعقدة، والنشر الكبير |
توفير التكاليف
لنفترض أن روبوت محادثة يعمل بالذكاء الاصطناعي يتعامل مع 50 ألف استعلام يوميًا. وبدون التخزين المؤقت، قد تصل تكاليف المعالجة الشهرية إلى 1TP46,750 دولارًا. ومن خلال تحسين موارد التخزين والمعالجة، يعمل التخزين المؤقت الهجين على تقليل هذه النفقات بشكل كبير.
استراتيجية التنفيذ
يعرض إطار عمل Machine Learning at the Tail (MAT) طريقة تخزين مؤقت هجينة متطورة، تجمع بين التخزين المؤقت التقليدي واتخاذ القرارات المستندة إلى التعلم الآلي. وقد أدى هذا النهج إلى:
- 31x عدد أقل من التوقعات مطلوب في المتوسط.
- بناء الميزات أسرع بـ 21 مرة، وقت القطع من 60 ميكروثانية إلى 2.9 ميكروثانية.
- تدريب أسرع بمقدار 9.5 مرة، مما أدى إلى تقليص الوقت من 160 ميكروثانية إلى 16.9 ميكروثانية.
على سبيل المثال، يمكن أن تستفيد روبوتات الدردشة الخاصة بخدمة العملاء التي تستخدم تقنية Retrieval Augmented Generation (RAG) بشكل كبير. فمن خلال تطبيق التخزين المؤقت الهجين بعد عملية Retrieval Augmented Generation (RAG)، تنخفض أوقات الاستجابة للاستفسارات الشائعة - مثل تفاصيل المنتج أو ساعات العمل في المتجر أو تكاليف الشحن - من عدة ثوانٍ إلى ما يقرب من لحظة.
لتنفيذ التخزين المؤقت الهجين بشكل فعال:
- قم بضبط حدود التخزين المؤقت بشكل ديناميكي لتتناسب مع تغييرات عبء العمل.
- استخدم التخزين المؤقت الدلالي للتعامل مع استعلامات اللغة الطبيعية، واسترجاع المعلومات بناءً على المعنى وليس المطابقات الدقيقة.
- ضع خوادم Redis بالقرب من عقد المعالجة لتقليل وقت الذهاب والإياب (RTT).
- قم بتكوين حدود الذاكرة القصوى وتعيين سياسات الإخلاء المصممة خصيصًا لتلبية احتياجات تطبيق الذكاء الاصطناعي الخاص بك.
إس بي بي-آي تي بي-59إي1987
4. التخزين المؤقت للحافة
يأخذ التخزين المؤقت على الحافة مفهوم التخزين المؤقت الهجين إلى مستوى أبعد من خلال معالجة البيانات محليًا، مباشرة عند المصدر. يقلل هذا النهج من التأخير ويحسن أداء الذكاء الاصطناعي بشكل كبير.
تأثير الأداء
توفر ذاكرة التخزين المؤقت الحافة مزايا واضحة لأنظمة الذكاء الاصطناعي. على سبيل المثال، يوضح معالج Snapdragon 8 Gen 3 كفاءة طاقة أفضل بمقدار 30 مرة لتوليد الصور مقارنة بمعالجة مركز البيانات التقليدية.
| وجه | المعالجة السحابية التقليدية | التخزين المؤقت للحافة |
|---|---|---|
| مسافة انتقال البيانات | رحلات طويلة إلى الخوادم المركزية | الحد الأدنى - المعالجة محليًا |
| اعتماد الشبكة | عالية – مطلوب اتصال مستمر | منخفض – يعمل دون اتصال بالإنترنت |
| وقت الاستجابة | يختلف حسب ظروف الشبكة | شبه لحظي |
| استهلاك الطاقة | مرتفع بسبب نقل البيانات الثقيلة | مُحسّن للمعالجة المحلية |
التطبيقات في العالم الحقيقي
لقد ثبت أن التخزين المؤقت على الحافة مفيد في العديد من السيناريوهات التي تعتمد على الذكاء الاصطناعي:
- التصنيع الذكي:معالجة البيانات محليًا، مما يتيح اتخاذ القرارات في جزء من الثانية دون الاعتماد على السحابة.
- مراقبة الرعاية الصحية:يمكن للأجهزة المجهزة بذاكرة التخزين المؤقت على الحافة اتخاذ قرارات آلية ومراقبة المرضى باستمرار. يسمح هذا الإعداد باستجابات أسرع، مما قد يسمح بخروج المرضى من المستشفى في وقت مبكر مع الحفاظ على الإشراف.
- البنية التحتية للمدينة الذكية:تستخدم أنظمة إدارة حركة المرور نماذج الذكاء الاصطناعي المخزنة مؤقتًا لضبط تدفق حركة المرور في الوقت الفعلي. ومن خلال تجنب تأخيرات المعالجة السحابية، تتكيف هذه الأنظمة بسرعة مع الظروف المتغيرة.
تسلط هذه الأمثلة الضوء على كيفية تعزيز التخزين المؤقت على الحافة للأداء من خلال التركيز على المعالجة الفورية الموضعية.
أفضل ممارسات التنفيذ
للاستفادة الكاملة من التخزين المؤقت على الحافة، ضع في اعتبارك الاستراتيجيات التالية:
- إدارة الموارد:استخدم تنسيق الذكاء الاصطناعي لمواءمة الموارد مع الطلب بشكل ديناميكي.
- توزيع المهام:تقسيم أحمال العمل بشكل فعال بين الأجهزة الطرفية والسحابة.
- تحسين النموذج:تطبيق تقنيات مثل التكميم والتقليم لتقليل حجم النموذج دون التضحية بالدقة.
على سبيل المثال، استعرضت شركة Fastly إمكانات التخزين المؤقت على الحافة على موقع متحف متروبوليتان للفنون في نيويورك. ومن خلال التوليد المسبق لعناصر تضمين متجه الحافة، قدم النظام توصيات فنية فورية ومخصصة. وقد أدى هذا إلى تجنب التأخيرات الناجمة عن طلبات خادم المصدر، مما يوضح كيف يمكن للتخزين المؤقت على الحافة أن يعزز التخصيص المدعوم بالذكاء الاصطناعي.
اعتبارات الطاقة
مع توقع استهلاك الذكاء الاصطناعي لـ 3.5% من الكهرباء العالمية بحلول عام 2030 (وفقًا لشركة Gartner)، توفر ذاكرة التخزين المؤقت على الحافة طريقة لتقليل الطلب على الطاقة. من خلال تقليل الاعتماد على مراكز البيانات المركزية والتركيز على المعالجة المحلية، فإنها تساعد في تحسين استخدام الموارد والحد من استهلاك الطاقة غير الضروري.
5. التخزين المؤقت الفيدرالي
تعمل ميزة التخزين المؤقت الفيدرالي على مزامنة ذاكرة التخزين المؤقت عبر العقد العالمية، مما يؤدي إلى تحسين أداء الذكاء الاصطناعي مع الحفاظ على خصوصية البيانات.
الأداء والهندسة المعمارية
يستخدم التخزين المؤقت الفيدرالي أنماطًا مختلفة لتلبية متطلبات التشغيل المختلفة:
| نوع الطوبولوجيا | وصف |
|---|---|
| نشط-نشط | التخزين المؤقت المتزامن عبر مواقع متعددة. |
| نشط-سلبي | ضمان الموثوقية مع آلية الفشل. |
| محور-متحدث | إدارة مركزية مع عقد بعيدة موزعة. |
| الاتحاد المركزي | الوصول العالمي الموحد للبيانات. |
تسهل هذه البنيات المرنة تحقيق التوازن بين السرعة والخصوصية في حالات الاستخدام في العالم الحقيقي.
تطبيق في العالم الحقيقي
وقد أسفر هذا النهج عن نتائج في مجالات حساسة. على سبيل المثال، الطب الطبيعي سلطت الدراسة الضوء على كيفية استخدام 20 مؤسسة للرعاية الصحية للتعلم الفيدرالي للتنبؤ باحتياجات الأكسجين لمرضى كوفيد-19. وقد عمل النظام على تحسين دقة التنبؤ مع الحفاظ على أمان بيانات المرضى عبر الأنظمة الموزعة.
الفوائد عبر الصناعات
- تصنيع:يتيح معالجة البيانات في الوقت الفعلي مع ضمان التحكم في البيانات محليًا.
- المركبات ذاتية القيادة:يدعم تدريب نموذج الذكاء الاصطناعي الآمن عبر الأساطيل.
- الرعاية الصحية:يسهل تطوير الذكاء الاصطناعي التعاوني دون المساس بخصوصية المريض.
رؤى الأداء الفني
تكشف الاختبارات الحديثة أن التعلم الفيدرالي من نظير إلى نظير يحقق معدلات دقة تتراوح بين 79.2 و83.1%، متفوقًا على الأنظمة المركزية، والتي يبلغ متوسطها حوالي 65.3%.
نصائح التحسين
للحصول على أقصى استفادة من التخزين المؤقت الفيدرالي، جرب هذه الطرق:
- استخدم التوقف المبكر المحلي لتجنب الإفراط في التجهيز.
- يتقدم الاتحاد الفيدرالي للدفاع (التقطير الفيدرالي) لإدارة توزيعات البيانات المتنوعة.
- استخدم عينات Dirichlet لضمان التمثيل العادل عبر الأجهزة.
بالإضافة إلى ذلك، فإن استخدام تباعد Jensen-Shannon يمكن أن يساعد في التعامل مع انقطاعات الأجهزة، والحفاظ على أداء مستقر.
يعمل التخزين المؤقت الفيدرالي على معالجة التحديات واسعة النطاق من خلال موازنة الأداء مع الخصوصية في أنظمة الذكاء الاصطناعي الموزعة.
6. التخزين المؤقت للمطالبات
التخزين المؤقت للمطالبات هو تقنية متقدمة تعتمد على أساليب التخزين المؤقت السابقة لتحسين أداء الذكاء الاصطناعي. من خلال تخزين المطالبات المستخدمة بشكل متكرر والاستجابات المقابلة لها، فإنه يقلل من زمن الوصول، ويزيل المعالجة المكررة، ويساعد في خفض التكاليف.
مقاييس الأداء
فيما يلي نظرة على كيفية تأثير التخزين المؤقت الفوري على الأداء:
| نموذج | تقليل زمن الوصول | توفير التكاليف |
|---|---|---|
| OpenAI GPT-4 | حتى 80% | 50% |
| سونيت كلود 3.5 | حتى 85% | 90% |
استراتيجية التنفيذ
يعتمد نجاح التخزين المؤقت للمطالبات إلى حد كبير على كيفية هيكلة المطالبات. لتحقيق أقصى قدر من كفاءة التخزين المؤقت، ضع المحتوى الثابت في البداية والمحتوى الديناميكي في النهاية. يعمل هذا النهج على تحسين معدلات الوصول إلى التخزين المؤقت، وخاصةً للاستعلامات المتكررة.
"يعد التخزين المؤقت الفوري حجر الزاوية في تحسين الذكاء الاصطناعي، حيث يتيح أوقات استجابة أسرع وكفاءة محسنة وتوفير التكاليف. ومن خلال الاستفادة من هذه التكنولوجيا، يمكن للشركات توسيع نطاق عملياتها وتعزيز رضا المستخدمين."
- ساهيل نيشاد، مؤلف، Future AGI
تطبيق في العالم الحقيقي
توفر Notion مثالاً رائعًا لكيفية تحويل التخزين المؤقت السريع لتجارب المستخدم. من خلال دمج التخزين المؤقت في ميزاتها المدعومة بـ Claude، توفر Notion AI استجابات فورية تقريبًا مع خفض التكاليف.
تفاصيل التكلفة
يقدم مزودو الخدمة المختلفون نماذج تسعير مختلفة للتخزين المؤقت السريع:
- سونيت كلود 3.5: كتابة ذاكرة التخزين المؤقت عند $3.75/MTok، وقراءة عند $0.30/MTok
- كلود 3 أوبس: كتابة ذاكرة التخزين المؤقت عند $18.75/MTok، وقراءتها عند $1.50/MTok
- كلود 3 هايكو: كتابة ذاكرة التخزين المؤقت عند $0.30/MTok، وقراءتها عند $0.03/MTok
نصائح التحسين الفني
للحصول على أقصى استفادة من التخزين المؤقت الفوري، ضع في اعتبارك الاستراتيجيات التالية:
- راقب معدلات الوصول ووقت الاستجابة خلال ساعات الذروة لضبط الأداء
- استخدم أنماط الطلب المتسقة لتقليل عمليات إخلاء ذاكرة التخزين المؤقت
- إعطاء الأولوية للمطالبات التي يزيد طولها عن 1024 رمزًا لتحسين كفاءة التخزين المؤقت
- إعداد مسح ذاكرة التخزين المؤقت تلقائيًا بعد مرور 5 إلى 10 دقائق من عدم النشاط
يعد التخزين المؤقت الفوري فعالاً بشكل خاص في أنظمة الدردشة، حيث يؤدي إعادة استخدام المخرجات إلى أوقات استجابة أسرع وكفاءة أفضل في استخدام الطاقة. في المقالة التالية، سنتعمق في كيفية ضبط التخزين المؤقت للتوسع التلقائي للموارد للتعامل مع أحمال عمل الذكاء الاصطناعي المتقلبة.
7. التخزين المؤقت للتوسع التلقائي
ترفع خاصية التخزين المؤقت ذات التوسع التلقائي كفاءة التخزين المؤقت الفوري إلى المستوى التالي من خلال ضبط موارد التخزين المؤقت ديناميكيًا استنادًا إلى الطلب في الوقت الفعلي. يضمن هذا النهج أن نماذج اللغة الكبيرة (LLMs) وأنظمة الذكاء الاصطناعي المعقدة يمكنها التوسع بسرعة وكفاءة عند الحاجة.
على سبيل المثال، أدى تخزين الحاويات في Amazon SageMaker إلى تحسين أوقات التوسع بشكل كبير بالنسبة لـ Llama3.1 70B، كما هو موضح أدناه:
| سيناريو التوسع | التخزين المؤقت المسبق | بعد التخزين المؤقت | الوقت الموفر |
|---|---|---|---|
| المثيل المتاح | 379 ثانية | 166 ثانية | 56% أسرع |
| إضافة مثيل جديد | 580 ثانية | 407 ثانية | 30% أسرع |
كيف يعمل؟
يعتمد التخزين المؤقت للتوسع التلقائي عادةً على طريقتين رئيسيتين:
- التوسع التفاعلي:ضبط موارد ذاكرة التخزين المؤقت على الفور استنادًا إلى مقاييس الوقت الفعلي مثل استخدام وحدة المعالجة المركزية والذاكرة والزمن الكامن.
- التوسع التنبئي:يستخدم البيانات التاريخية لتوقع ارتفاعات الطلب وضبط سعة ذاكرة التخزين المؤقت مسبقًا.
حالات استخدام الصناعة
قامت NVIDIA بدمج التخزين المؤقت للتوسع التلقائي لتعزيز قدرات نشر الذكاء الاصطناعي. يسلط Eliuth Triana الضوء على تأثير ذلك:
"يمثل دمج Container Caching مع NVIDIA Triton Inference Server على SageMaker تقدمًا كبيرًا في تقديم نماذج التعلم الآلي على نطاق واسع. تكمل هذه الميزة بشكل مثالي قدرات تقديم الخدمة المتقدمة في Triton من خلال تقليل زمن انتقال النشر وتحسين استخدام الموارد أثناء أحداث التوسع. بالنسبة للعملاء الذين يقومون بتشغيل أحمال عمل الإنتاج مع دعم Triton متعدد الأطر والدفعات الديناميكية، توفر Container Caching استجابة أسرع لارتفاعات الطلب مع الحفاظ على تحسينات أداء Triton."
- إليوث تريانا، رئيس العلاقات العالمية للمطورين في أمازون لدى NVIDIA
العوامل الفنية الرئيسية التي يجب مراعاتها
عند تنفيذ التخزين المؤقت للتوسع التلقائي، هناك العديد من الجوانب المهمة التي يجب معالجتها:
- اختيار المقياس:اختر المقاييس الصحيحة، مثل استخدام وحدة المعالجة المركزية أو أنماط الطلب، لتحديد سياسات التوسع التي تتوافق مع عبء العمل لديك.
- حدود الموارد:قم بتعيين حد أدنى وأقصى واضح لموارد ذاكرة التخزين المؤقت لتجنب الإفراط في التزويد أو نقصه.
- إدارة الدولة:تأكد من التعامل السلس مع المكونات ذات الحالة أثناء أحداث توسيع ذاكرة التخزين المؤقت.
- وقت الاستجابة:قم بمراقبة أوقات استجابة ذاكرة التخزين المؤقت وضبطها باستمرار للحفاظ على الأداء أثناء عمليات التوسع.
إمكانية توفير التكاليف
يساعد التخزين المؤقت للتوسع التلقائي أيضًا في التحكم في التكاليف، وخاصةً عند إقرانه بحلول مثل المثيلات الفورية. على سبيل المثال، يوفر محرك الحوسبة من Google المثيلات الفورية التي يمكنها خفض تكاليف الحوسبة بما يصل إلى 91%. ويؤكد فيليب شميد من Hugging Face على الفوائد:
"تُستخدم حاويات Hugging Face TGI على نطاق واسع من قبل عملاء SageMaker inference، حيث توفر حلاً قويًا مُحسَّنًا لتشغيل النماذج الشائعة من Hugging Face. نحن متحمسون لرؤية Container Caching يسرع التوسع التلقائي للمستخدمين، مما يوسع نطاق وتبني النماذج المفتوحة من Hugging Face."
- فيليب شميد، رئيس قسم التقنية في Hugging Face
خاتمة
إن استخدام التخزين المؤقت للبيانات بشكل فعال يمكن أن يعزز بشكل كبير من أداء الذكاء الاصطناعي مع خفض التكاليف. وتسلط التقنيات السبع التي ناقشناها سابقًا الضوء على كيفية قدرة التخزين المؤقت الاستراتيجي على تحسين كفاءة النظام وموثوقيته دون إهدار المال.
إن مكاسب الأداء واضحة. على سبيل المثال، قدم حل التخزين المؤقت الموزع من Hoard زيادة في السرعة بمقدار 2.1x مقارنة بأنظمة تخزين NFS التقليدية على مجموعات GPU أثناء مهام تصنيف ImageNet. ويؤكد هذا المثال على مدى قدرة التخزين المؤقت المخطط له جيدًا على إحداث فرق ملموس.
"التخزين المؤقت أمر أساسي في الحوسبة مثل المصفوفات أو الرموز أو السلاسل." – ستيف لوريلو، مهندس ميداني أول في Redis
عند إقرانها بأجهزة قوية، تصبح هذه الاستراتيجيات أكثر تأثيرًا. أنظمة عالية الأداء، مثل Serverionتتيح خوادم GPU من AI من NVIDIA للمؤسسات الاستفادة من الإمكانات الكاملة لوحدات معالجة الرسومات من NVIDIA، مما يوفر الإعداد المثالي للتعامل مع مهام الذكاء الاصطناعي المعقدة.
كما يعالج التخزين المؤقت التحديات الرئيسية التي تمنع العديد من تطبيقات الذكاء الاصطناعي - حوالي 70% - من الانتقال إلى الإنتاج. ومن خلال تبني هذه الأساليب، يمكن للمؤسسات تحقيق ما يلي:
| متري | تحسين |
|---|---|
| وقت الاستجابة للاستعلام | يصل إلى 80% انخفاض في زمن انتقال p50 |
| تكاليف البنية التحتية | تخفيض يصل إلى 95% مع معدلات إصابة عالية للذاكرة المؤقتة |
| معدل الوصول إلى ذاكرة التخزين المؤقت | 20-30% من إجمالي الاستعلامات المقدمة من ذاكرة التخزين المؤقت |
مع تزايد تعقيد مشاريع الذكاء الاصطناعي، أصبح التخزين المؤقت الفعّال أكثر أهمية. وعند الجمع بين هذه التقنيات والأجهزة المتقدمة، تمهد الطريق لأنظمة الذكاء الاصطناعي القابلة للتطوير وعالية الأداء والتي تقدم نتائج دون المساومة على التكلفة أو الكفاءة.