يتطلب بناء نماذج الذكاء الاصطناعي الحديثة ودعمها استثمارات كبيرة قد تتجاوز مئات الملايين من الدولارات. وتشير التقديرات إلى أن هذه التكاليف قد تصل إلى مليار دولار في المستقبل القريب.
ترجع هذه النفقات في الغالب إلى قوة الحوسبة المستخدمة في كيانات مثل وحدات معالجة الرسوميات Nvidia، والتي يمكن أن تكلف حوالي 30 ألف دولار لكل منها وقد تتطلب آلافًا أخرى لتكون فعالة. وقال الباحثون إن جودة وكمية مجموعة بيانات التدريب المستخدمة في تطوير مثل هذه النماذج أمر مهم للغاية.
يكشف قادة الصناعة عن تكاليف مذهلة لتطوير الذكاء الاصطناعي
وفقًا لجيمس بيتكر من OpenAI، فإن أداء النموذج هو وظيفة لبيانات التدريب وليس تصميم النموذج أو بنيته. ويدعي أن النماذج المدربة على مجموعات البيانات الضخمة ستحقق نفس النتائج. ولذلك، فإن البيانات هي المفتاح لتقدم تكنولوجيا الذكاء الاصطناعي.
شارك داريو أمودي، الرئيس التنفيذي لشركة الذكاء الاصطناعي Anthropic AI، وجهات نظره حول الجوانب المالية لهذه التحديات في البودكاست In Good Company. وقال إن من المقدر أن تدريب النماذج الحالية، مثل ChatGPT-4، سيكلف حوالي 100 مليون دولار، وأن التدريب على النماذج المستقبلية قد يتطلب ما بين 10 إلى 100 مليار دولار على مدى السنوات القليلة المقبلة.
إن نماذج الذكاء الاصطناعي التوليدي، وتلك التي أنشأتها الشركات الكبيرة، هي في جوهرها نماذج إحصائية. ولذلك، يستخدمون العديد من الأمثلة للتنبؤ بالنتائج الأكثر احتمالا. يقول كايل لو من معهد ألين للذكاء الاصطناعي (AI2) إن التحسن في الأداء يمكن أن يعزى في المقام الأول إلى البيانات، خاصة عندما تكون بيئة التدريب متسقة.
تثير مركزية البيانات مخاوف أخلاقية ومخاوف تتعلق بإمكانية الوصول إليها
إن التكلفة العالية للحصول على بيانات جيدة النوعية تجعل تطوير الذكاء الاصطناعي حكرا على عدد قليل من الشركات الكبرى في العالم المتقدم. ويشكل تجميع الموارد هذا أيضًا مصدر قلق فيما يتعلق بتوفر تكنولوجيا الذكاء الاصطناعي وإمكانية إساءة استخدامها.
لقد أنفقت شركة OpenAI وحدها مئات الملايين من الدولارات على تراخيص البيانات، كما فكرت شركة Meta في شراء ناشرين للوصول إلى البيانات. ومن المتوقع أن يتوسع سوق بيانات التدريب على الذكاء الاصطناعي، ومن المرجح أن يستغل وسطاء البيانات هذه الفرصة.
تنبع المشاكل من ممارسات التقاط البيانات المشكوك فيها. وبحسب التقارير، فقد استولت العديد من الشركات على كميات كبيرة من المحتوى دون إذن من أصحاب ذلك المحتوى، كما تستغل بعض الشركات البيانات من منصات مختلفة ولا تعوض المستخدمين. كما ذكرنا سابقًا، استخدمت OpenAI نموذج النسخ الصوتي Whisper الخاص بها لنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتحسين GPT-4.
تعمل المنظمات على إنشاء مجموعات بيانات تدريبية مفتوحة الوصول للذكاء الاصطناعي
وبما أن السباق للحصول على البيانات يمثل بعض التحديات، فإن هناك حاجة إلى بعض الجهود من قبل أطراف مستقلة لجعل مجموعات بيانات التدريب متاحة بشكل مفتوح. تقوم بعض المنظمات، مثل EleutherAI وHugging Face، بإنشاء مجموعات بيانات كبيرة ومتاحة للعامة لتطوير الذكاء الاصطناعي.
سلطت صحيفة وول ستريت جورنال الضوء مؤخرًا على استراتيجيتين محتملتين لحل مشكلات الحصول على البيانات: توليد البيانات التوليدية وتعلم المناهج الدراسية. يتم إنشاء البيانات الاصطناعية باستخدام نفس نماذج الذكاء الاصطناعي، بينما يسعى تعلم المنهج إلى تزويد النماذج ببيانات عالية الجودة بطريقة منظمة حتى تتمكن من إجراء اتصالات حتى مع بيانات أقل. ومع ذلك، لا تزال كلتا الطريقتين قيد التطوير ولم يتم اختبار فعاليتهما بعد.