تقنية

الجدل يشتعل حول استخدام فيديوهات YouTube لتدريب نموذج GPT-4

الجدل يشتعل حول استخدام فيديوهات YouTube لتدريب نموذج GPT-4

استخدمت شركة “أوبن إيه آي” ما يزيد عن مليون ساعة من مقاطع الفيديو على منصة يوتيوب لتدريب نموذج “جي بي تي-4″، الذي يُعتبر أحدث وأكثر النماذج اللغوية تطوراً. هذا الاستخدام أثار جدلاً واسعاً حول المعايير القانونية والأخلاقية لاستخدام البيانات في تطوير النماذج الذكاء الاصطناعي التوليدي، وفقاً لتقرير نشرته صحيفة “نيويورك تايمز”.

يبرز هذا الاكتشاف التحدي الكبير الذي تواجهه شركات الذكاء الاصطناعي في الحصول على بيانات تدريب ذات جودة عالية لنماذجها، مما يدفعها نحو مناطق غير محددة بوضوح من حيث القوانين المتعلقة بحقوق النشر ومطالبات الاستخدام العادل للبيانات.

وقد صرّح مات براينت، المتحدث باسم شركة غوغل، لموقع “ذا فيرج” بأن الشركة على علم بتقارير غير مؤكدة حول نشاط شركة “أوبن إيه آي”. وأضاف براينت أن شروط الخدمة الخاصة بغوغل تمنع استخدام أو تنزيل محتوى يوتيوب بدون إذن.

وبالإضافة إلى ذلك، يقوم فريق غوغل بجمع مقاطع الفيديو من يوتيوب، وفقًا للتقرير الذي نشر. وأشار براينت إلى أن الشركة قامت بتدريب نماذجها باستخدام بعض هذا المحتوى، وفقًا لاتفاقياتها مع مبتكري المحتوى على المنصة.

استجابةً لتحدي الحصول على مجموعات بيانات ضخمة ومتنوعة لتدريب النماذج المتقدمة، قامت شركة “أوبن إيه آي” بالبحث عن أساليب مبتكرة لتغذية خوارزمياتها. وفي هذا السياق، طوّرت الشركة نموذج “ويسبر” لتفريغ المحتوى الصوتي بهدف تسهيل تدريب نموذجها التأسيسي “جي بي تي-4″، وذلك باستفادتها من كميات كبيرة من محتوى يوتيوب.

يثير هذا التصرف، الذي يدفعه الحاجة إلى الحفاظ على الميزة التنافسية وتعزيز أداء النموذج، تساؤلات حول قانونية وأخلاقيات استخدام المواد المحمية بحقوق الطبع والنشر دون إذن صريح من مالكي المحتوى على المنصة.

ويعكس هذا المأزق توجهًا أوسع في هذا المجال، حيث يقترب مطورو أنظمة الذكاء الاصطناعي من تجاوز حدود الموارد المتاحة من بيانات التدريب. وقد أدى ذلك إلى النظر في استراتيجيات بديلة، مثل تدريب النماذج على بيانات “اصطناعية” تم إنتاجها من تلك النماذج نفسها، أو استخدام “التعلم المنهجي” الذي يشمل تغذية النماذج ببيانات عالية الجودة بأسلوب منهجي. ومع ذلك، لم يتم اختبار أي من هذه الاستراتيجيات بعد، وفقًا لتقرير نشرته صحيفة “وول ستريت جورنال”.

بالتالي، يبقى الخيار الوحيد المتاح للشركات هو استخدام أي مصدر بيانات يمكنها الوصول إليه، بغض النظر عما إذا كانت حصلت على إذن لذلك أم لا. ونظراً للدعاوى القانونية المتزايدة التي تقدمت خلال العام الماضي، يتزايد هذا الاختيار من المشاكل والنزاعات بين شرك

زر الذهاب إلى الأعلى