رسم بياني يوضح الوكلاء الذين لديهم أدوات تقريبًا تضاعف معدلات نجاح أولئك الذين لا يحققون ، ولكن لا يزال يحقق درجة نجاح أقل من 50 في المائة

تفوق الوكلاء الذين يستخدمون أدوات تصحيح الأخطاء بشكل كبير على أولئك الذين لم يفعلوا ذلك ، لكن معدل نجاحهم لا يزال مرتفعًا بما فيه الكفاية.


ائتمان:

Microsoft Research


هذا النهج أكثر نجاحًا بكثير من الاعتماد على النماذج حيث يتم استخدامها عادةً ، ولكن عندما يكون معدل النجاح أفضل 48.4 في المائة ، فأنت لست جاهزًا للوقت البدائي. من المحتمل أن تكون القيود لأن النماذج لا تفهم تمامًا أفضل استخدام الأدوات ، ولأن بيانات التدريب الحالية ليست مصممة لحالة الاستخدام هذه.

يقول منشور المدونة: “نعتقد أن هذا يرجع إلى ندرة البيانات التي تمثل سلوك اتخاذ القرار المتسلسل (على سبيل المثال ، آثار تصحيح الأخطاء) في مجموعة تدريب LLM الحالية”. “ومع ذلك ، فإن تحسين الأداء الكبير … يتحقق من أن هذا هو اتجاه بحث واعد.”

هذا التقرير الأولي هو مجرد بداية الجهود ، والمطالبة بوست. والخطوة التالية هي “ضبط نموذج البحث عن المعلومات المتخصص في جمع المعلومات اللازمة لحل الأخطاء.” إذا كان النموذج كبيرًا ، فقد تكون أفضل خطوة لتوفير تكاليف الاستدلال هي “إنشاء نموذج أصغر بحثًا عن المعلومات يمكن أن يوفر المعلومات ذات الصلة للأكبر.”

ليست هذه هي المرة الأولى التي رأينا فيها نتائج تشير إلى أن بعض الأفكار الطموحة حول وكلاء الذكاء الاصطناعي التي تحل محل المطورين مباشرة بعيدة عن الواقع. كانت هناك العديد من الدراسات التي توضح بالفعل أنه على الرغم من أن أداة الذكاء الاصطناعى يمكنها في بعض الأحيان إنشاء تطبيق يبدو مقبولًا للمستخدم لمهمة ضيقة ، إلا أن النماذج تميل إلى إنتاج رمز محمّل بالبق وملاءمة الأمان ، ولا يمكنهم عمومًا بإصلاح هذه المشكلات.

هذه خطوة مبكرة على الطريق إلى عوامل ترميز الذكاء الاصطناعى ، لكن معظم الباحثين يتفقون على أنه من المحتمل أن تكون أفضل نتيجة هي العامل الذي يوفر للمطور البشري قدرًا كبيرًا من الوقت ، وليس من يمكنه فعل كل ما يمكنهم القيام به.

Source link


اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *