دليل لتحديد نموذج الذكاء الاصطناعى لاستخدامه في جيثب copilot

لضمان إمكانية الوصول إلى أفضل التقنيات المتاحة ، نضيف باستمرار دعمًا لنماذج جديدة جيثب copilot. ومع ذلك ، نعلم أنه قد يكون من الصعب مواكبة العديد من النماذج الجديدة التي يتم إصدارها طوال الوقت.

كل هذا يثير سؤالًا واضحًا: ما هو النموذج الذي يجب أن تستخدمه؟

أنت تستطيع اقرأ منشور مدونتنا الأخير للحصول على نظرة عامة على النماذج المتوفرة حاليًا في Copilot ونقاط قوتها ، أو تحقق من وثائقنا للغوص العميق مقارنة النماذج والمهام المختلفة. لكن المناظر الطبيعية منظمة العفو الدولية تتحرك بسرعة. في هذه المقالة ، سنستكشف إطار عمل – بما في ذلك بعض الاستراتيجيات – لتقييم ما إذا كان أي نموذج من الذكاء الاصطناعي مناسبًا ل لك الاستخدام ، حتى مع استمرار ظهور النماذج الجديدة بوتيرة سريعة.

من الصعب أن تخطئ في نموذجنا الأساسي ، الذي تم ضبطه خصيصًا للمهام المتعلقة بالبرمجة. ولكن بناءً على ما تعمل عليه ، من المحتمل أن يكون لديك احتياجات وتفضيلات متفاوتة. لا يوجد نموذج واحد “أفضل”. قد يفضل البعض نموذجًا أكثر مطوّلة للدردشة ، بينما يفضل البعض الآخر نموذجًا terse ، على سبيل المثال.

تحدثنا مع العديد من المطورين حول عملية اختيار النموذج الخاصة بهم. استمر في القراءة لاكتشاف كيفية تطبيق استراتيجياتهم على احتياجاتك الخاصة.

💡 شاهد الفيديو أدناه للحصول على نصائح حول الهندسة المطالبة للحصول على أفضل النتائج.

https://www.youtube.com/watch؟v=laf-lacf2qy

لماذا تستخدم نماذج متعددة؟

لا يوجد سبب للاضطرار إلى اختيار طراز واحد والتمسك به. حيث يمكنك التبديل بسهولة بين النماذج لكليهما محادثة و إكمال رمز مع Github Copilot ، يمكنك استخدام نماذج مختلفة لحالات الاستخدام المختلفة.

إنه يشبه إلى حد ما أن يتجول في مكدتك الخاصة: لن تعرف ما إذا كان يناسب سير العمل الخاص بك حقًا حتى تقوم بشحن بعض التعليمات البرمجية الحقيقية معها.

– Anand Chowdhary ، FirstQuadrant CTO والمؤسس المشارك

الدردشة مقابل إكمال الكود

يعد استخدام نموذج واحد للدردشة والآخر للإكمال التلقائي أحد أكثر الأنماط شيوعًا التي نراها بين المطورين. بشكل عام ، يفضل المطورون نماذج الإكمال التلقائي لأنها سريعة وسريعة الاستجابة ، والتي يحتاجون إليها إذا كانوا يبحثون عن اقتراحات كما يفكرون وينتبون. يكون المطورون أكثر تسامحًا مع الكمون في الدردشة ، عندما يكونون في حالة ذهنية استكشافية أكثر (مثل النظر في وظيفة إعادة بناء معقدة ، على سبيل المثال).

نماذج التفكير لبعض مهام البرمجة

غالبًا ما تستجيب نماذج التفكير مثل Openai O1 أبطأ من LLMs التقليدية مثل GPT-4O أو Claude Sonnet 3.5. هذا في جزء كبير منه لأن هذه النماذج تقسم موجهًا إلى أجزاء ويفكر في مقاربات متعددة للمشكلة. يقدم هذا الكمون في أوقات استجابةهم ، ولكنه يجعلها أكثر فاعلية في إكمال المهام المعقدة. يفضل العديد من المطورين هذه النماذج الأكثر تداولية لمهام معينة.

على سبيل المثال ، يستخدم Fatih Kadir Akın ، مدير علاقات المطورين ، O1 عند بدء مشاريع جديدة من نقطة الصفر. ويوضح قائلاً: “تفهم نماذج التفكير بشكل أفضل” رؤيتي وإنشاء مشاريع أكثر تنظيماً من النماذج غير المعدنية “.

تفضل FirstQuadrant CTO والمؤسس المشارك أناند تشودري نماذج التفكير للوظائف التي تُعرف برمجية واسعة النطاق. يقول: “نادراً ما يكون النموذج الذي يعيد كتابة رمز الخلفية المعقدة دون التفكير الدقيق دقيقًا في المرة الأولى”. “رؤية عملية التفكير تساعدني أيضًا على فهم التغييرات.”

عند إنشاء أسئلة مقابلة فنية للنشرة الإخبارية الخاصة بها ، يقوم كاسيدي ويليامز ، مديرة Github ، بديلة Developer Advocacy ، بخلط نماذج بعض المهام. عندما تكتب سؤالاً ، تستخدم GPT-4O لتحسين النثر ، ثم يفكر كلود 3.7 Sonnet للتحقق من دقة الكود. وتقول: “تساعد نماذج التفكير في ضمان الصواب التقني بسبب عمليةها متعددة الخطوات”. “إذا ارتكبوا شيئًا خاطئًا في البداية ، فإنهم غالبًا ما يصححون أنفسهم في خطوات لاحقة ، لذا فإن الإجابة النهائية أكثر دقة.”

هناك بعض الذاتية ، لكنني أقارن إخراج النموذج بناءً على بنية الكود ، والأنماط ، والتعليقات ، والالتزام بأفضل الممارسات.

– Portilla Edo ، الرصاص الهندسي للبنية التحتية السحابية

ما الذي تبحث عنه في نموذج الذكاء الاصطناعي الجديد

لنفترض أن طرازًا جديدًا قد تم إسقاطه للتو وأنت مستعد لتجربته. فيما يلي بعض الأشياء التي يجب مراعاتها قبل أن تجعلها جديدة.

الحديثة

نماذج مختلفة تستخدم بيانات التدريب المختلفة. هذا يعني أن أحد النماذج قد يكون له بيانات حديثة أكثر من الآخر ، وبالتالي قد يتم تدريبه على إصدارات جديدة من لغات البرمجة والأطر والمكتبات التي تستخدمها.

يقول Xavier Portilla Edo ، وهو قيادة هندسية للبنية التحتية السحابية: “عندما أحاول الحصول على طراز جديد ، فإن أحد الأشياء الأولى التي أقوم بها هي التحقق من مدى تحديثه”. عادةً ما يقوم بذلك عن طريق إنشاء ملف واضح للمشروع للمشروع لمعرفة ما يقترحه أرقام الإكمال التلقائي. يقول: “إذا كانت الإصدارات قديمة جدًا ، فسوف أتحرك”.

السرعة والاستجابة

كما ذكرنا ، يميل المطورون إلى تحمل المزيد من الكمون في الدردشة أكثر من الإكمال التلقائي. لكن الاستجابة لا تزال مهمة في الدردشة. يقول ريشاب كومار ، وهو مطور الموظفين في Twilio: “أستمتع بأفكار كذاب من النموذج والحصول على ملاحظات”. “لهذا النوع من التفاعل ، أحتاج إلى ردود سريعة حتى أتمكن من البقاء في التدفق.”

دقة

بطبيعة الحال ، تحتاج إلى تقييم النماذج التي تنتج أفضل رمز. تقول بورتيلا إيدو: “هناك بعض الذاتية ، لكنني أقارن إخراج النموذج بناءً على بنية الكود ، والأنماط ، والتعليقات ، والالتزام بأفضل الممارسات”. “أنا أنظر أيضًا إلى مدى قابلية القراءة والصيانة الرمز – هل يتبع ذلك اتفاقيات التسمية؟ هل هي معيارية؟ هل التعليقات مفيدة أم تعيد فقط إعادة الرمز؟

كيفية اختبار نموذج الذكاء الاصطناعي في سير العمل الخاص بك

حسنًا ، الآن أنت تعرف ما الذي تبحث عنه في نموذج. ولكن كيف يمكنك تقييمها بالفعل من أجل الاستجابة والصحة؟ يمكنك استخدامه ، بالطبع.

ابدأ بتطبيق بسيط

سيبدأ Akın بشكل عام بتطبيق TODO بسيط مكتوب في الفانيليا جافا سكريبت. يقول: “أنا فقط أتحقق من الرمز ، ومدى تنظيمه”. وبالمثل ، سيبدأ Kumar بخادم WebSocket في Python. الفكرة هي أن تبدأ بشيء تفهمه جيدًا بما يكفي لتقييمه ، ثم طبقة أكثر تعقيدًا. يقول أكين: “في النهاية ، سأرى ما إذا كان بإمكانه بناء شيء ثلاثي الأبعاد باستخدام 3JS”.

يبدأ Portilla Edo بدفع نموذج جديد يريد تقييمه في دردشة Copilot. يقول: “عادةً ما أطلب ذلك عن أشياء بسيطة ، مثل وظيفة في Go ، أو ملف HTML بسيط”. ثم ينتقل إلى الإكمال التلقائي لمعرفة كيفية أداء النموذج هناك.

استخدمه كـ “سائق يومي” لفترة من الوقت

يفضل Chowdhary فقط القفز والبدء في استخدام نموذج. يقول: “عندما يسقط طراز جديد ، أقوم بتبديله في سير العمل الخاص بي كسائق يومي وأعيش معه قليلاً”. “المعايير والاختبارات المتاحة تخبرك فقط جزءًا من القصة. أعتقد أن الاختبار الحقيقي هو معرفة ما إذا كان يحسن فعليًا يوماً إلى اليوم.”

على سبيل المثال ، يتحقق لمعرفة ما إذا كان يسرع في الواقع وظائف تصحيح الأخطاء أو ينتج عن إعادة طعنة أنظف. يقول: “إنه يشبه إلى حد ما وضع الكدح الخاص بك: لن تعرف ما إذا كان يناسب سير العمل الخاص بك حقًا حتى تقوم بشحن بعض التعليمات البرمجية الحقيقية معها”. “بعد تقييمه قليلاً ، أقرر ما إذا كنت سألتزم بالنموذج الجديد أو العودة إلى خياري السابق.”

خذ هذا معك

ما يتفق عليه الجميع فقط هو أن أفضل طريقة لتقييم النموذج هي استخدامه.

الشيء المهم هو الحفاظ على التعلم. يقول تشودري: “لا تحتاج إلى تبديل النماذج طوال الوقت ، لكن من المهم معرفة ما يجري”. “إن الحالة الفنية تتحرك بسرعة. من السهل أن تترك وراءها.”

موارد إضافية

كتبه

Source link

تكنولوجيا MSN