كان Openai المتهم بواسطة كثير أطراف تدريب الذكاء الاصطناعى على محتوى حقوق الطبع والنشر بلا إذن. الآن جديد ورق من خلال منظمة مراقبة منظمة العفو الدولية ، تولى منظمة AI اتهامًا خطيرًا بأن الشركة اعتمدت بشكل متزايد على الكتب غير العامة التي لم ترخصها لتدريب نماذج الذكاء الاصطناعى الأكثر تطوراً.
نماذج الذكاء الاصطناعي هي في الأساس محركات التنبؤ المعقدة. تدرب على الكثير من البيانات – الكتب والأفلام والبرامج التلفزيونية وما إلى ذلك – يتعلمون الأنماط والطرق الجديدة للاستقراء من مطالبة بسيطة. عندما يكتب نموذج “كتابة” مقال عن مأساة يونانية أو “رسم” صور غيبلي-غيب ، فإنه ببساطة يسحب من معرفته الواسعة إلى التقريبية. لا يصل إلى أي شيء جديد.
على الرغم من أن عددًا من مختبرات الذكاء الاصطناعى ، بما في ذلك Openai ، قد بدأوا في احتضان البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعى لتدريب الذكاء الاصطناعي أثناء استنفاد مصادر العالم الحقيقي (بشكل رئيسي على شبكة الإنترنت العامة) ، فقد تجنب عدد قليل من البيانات الواقعية تمامًا. هذا على الأرجح لأن التدريب على البيانات الاصطناعية البحتة يأتي مع مخاطر ، مثل تفاقم أداء النموذج.
الورقة الجديدة ، من مشروع الإفصاح عن الذكاء الاصطناعى ، وهي مؤسسة غير ربحية شاركت في عام 2024 من قبل قطب وسائل الإعلام تيم أوريلي والاقتصادي إيلان شتراوس ، استنتاج مفاده أن Openai قام بتدريبه على الأرجح GPT-4O نموذج على كتب Paywalled من O’Reilly Media. (O’Reilly هو الرئيس التنفيذي لشركة O’Reilly Media.)
في chatgpt، GPT-4O هو النموذج الافتراضي. تقول الورقة إن O’Reilly ليس لديها اتفاقية ترخيص مع Openai.
“GPT-4O ، نموذج Openai الأكثر حداثة وقادرة ، يوضح اعترافًا قويًا بمحتوى كتاب O’Reilly Booked Paywalled … مقارنةً بنموذج Openai السابق GPT-3.5 Turbo” ، كتب المؤلفون المشاركون في الورقة. “على النقيض من ذلك ، يُظهر GPT-3.5 Turbo اعترافًا نسبيًا أكبر لعينات كتاب O’Reilly التي يمكن الوصول إليها للجمهور.”
استخدمت الورقة طريقة تسمى إلغاء، تم تقديمه لأول مرة في دراسة أكاديمية في عام 2024 ، مصممة لاكتشاف المحتوى المحمي بحقوق الطبع والنشر في بيانات تدريب نماذج اللغة. المعروف أيضًا باسم “هجوم الاستدلال العضوي” ، تختبر الطريقة ما إذا كان النموذج يمكنه أن يميز النصوص التي يتم تأليفها للإنسان بشكل موثوق من الإصدارات التي تم إنشاؤها من الذكاء الاصطناعية من نفس النص. إذا كان بإمكانه ذلك ، فإنه يشير إلى أن النموذج قد يكون لديه معرفة مسبقة بالنص من بيانات التدريب الخاصة به.
يقول المؤلفون المشاركون للورقة-أورايلي ، شتراوس ، وباحث الذكاء الاصطناعي سرولي روزنبلات-أنهم بحثوا عن GPT-4O ، GPT-3.5 Turboومعرفة نماذج Openai الأخرى بكتب O’Reilly Media المنشورة قبل وبعد تواريخ قطع التدريب. لقد استخدموا 13،962 مقتطفات من الفقرة من 34 كتاب O’Reilly لتقدير احتمال إدراج مقتطف معين في مجموعة بيانات تدريب النموذج.
وفقًا لنتائج الورقة ، فإن GPT-4O “معترف به” أكثر بكثير من محتوى كتاب O’Reilly من النماذج الأقدم من Openai ، وتحديداً GPT-3.5 Turbo. وقال المؤلفون إنه حتى بعد حساب العوامل المربكة المحتملة ، مثل التحسينات في قدرة النماذج الأحدث على معرفة ما إذا كان النص قد تم تأليفه من الإنسان.
وكتب المؤلفون المشاركون: “تعترف GPT-4O (على الأرجح) ، وكذلك على علم مسبق بالعديد من كتب O’Reilly غير العامة المنشورة قبل تاريخ قطع التدريب”.
إنها ليست مسدسًا للتدخين ، فالأوفين المشاركين حريصون على الإشارة إليه. إنهم يقرون بأن طريقةهم التجريبية ليست مضمونة وأن Openai ربما جمع مقتطفات الكتاب المقيدة من المستخدمين الذين يقومون بنسخه ولصقه في ChatGPT.
عدوًا من المياه ، لم يقم المؤلفون المشاركون بتقييم أحدث مجموعة من النماذج من Openai ، والتي تتضمن نماذج GPT-4.5 و “التفكير” مثل O3-Mini و O1. من المحتمل أن هذه النماذج لم يتم تدريبها على بيانات كتاب O’Reilly ذات الجدران المقيدة أو تم تدريبها على مبلغ أقل من GPT-4O.
ومع ذلك ، ليس سراً أن Openai ، الذي دعا إليه القيود المفروضة حول تطوير النماذج باستخدام البيانات المحمية بحقوق الطبع والنشر ، يبحث عن بيانات تدريب عالية الجودة لبعض الوقت. لقد ذهبت الشركة إلى حد استئجار الصحفيين للمساعدة في ضبط مخرجات نماذجها. هذا اتجاه عبر الصناعة الأوسع: شركات الذكاء الاصطناعى تجنيد خبراء في مجالات مثل العلوم والفيزياء جعل هؤلاء الخبراء فعليًا معرفتهم في أنظمة الذكاء الاصطناعى.
تجدر الإشارة إلى أن Openai يدفع لبعض بيانات التدريب على الأقل. لدى الشركة صفقات ترخيص مع ناشري الأخبار والشبكات الاجتماعية ومكتبات وسائل الإعلام وغيرها. يوفر Openai أيضًا آليات إلغاء الاشتراك- وإن كانت غير كاملة – التي تتيح لأصحاب حقوق الطبع والنشر أن يعلقوا محتوىهم الذين يفضلون أن لا تستخدم الشركة لأغراض التدريب.
ومع ذلك ، نظرًا لأن Openai معارك العديد من الدعاوى على ممارسات بيانات التدريب الخاصة بها وعلاج قانون حقوق الطبع والنشر في المحاكم الأمريكية ، فإن ورقة O’Reilly ليست أكثر المظهر الإغراء.
لم يرد Openai على طلب للتعليق.
اترك تعليقاً