هل تتحدث مع إنسان أم آلة؟ دراسة تكشف قدرة مذهلة للذكاء الاصطناعي على تقليد البشر

الصفحة الرئيسية / تكنولوجيا وعلوم

5/29/2026 4:08:00 PM

كشفت دراسة علمية حديثة نُشرت في دورية Proceedings of the National Academy of Sciences عن تقدم لافت في قدرة نماذج الذكاء الاصطناعي على تقليد أسلوب المحادثة البشرية، إلى درجة أن بعض المشاركين في التجربة أخطأوا في التمييز بين الإنسان والآلة.

وتعيد الدراسة إحياء سؤال طرحه عالم الحاسوب آلان تورينغ عام 1950: هل يمكن لآلة أن تحاكي الحوار البشري بشكل يجعل الإنسان عاجزًا عن اكتشاف أنها ليست بشرًا؟ إلا أن البحث الجديد ينقل هذا السؤال من الإطار النظري إلى اختبار عملي على نماذج اللغة الحديثة.

تجربة محادثة ثلاثية تكشف الفجوة المتقلصة

اعتمد الباحثون تصميمًا تجريبيًا يقوم على ما يشبه “اختبار تورينغ الثلاثي”، حيث يتفاعل المشارك في الوقت نفسه مع طرفين عبر واجهة نصية: أحدهما إنسان حقيقي، والآخر نموذج ذكاء اصطناعي، دون معرفة مسبقة بهوية أي منهما.

وبعد خمس دقائق من المحادثة، طُلب من المشاركين تحديد الطرف البشري، مع تكرار التجربة في بعض الحالات لمدة تصل إلى 15 دقيقة.

وشملت الدراسة نحو 500 مشارك من مجموعتين مستقلتين، إحداهما من طلاب جامعة كاليفورنيا في سان دييغو، والأخرى عبر منصة أبحاث مدفوعة، في محاولة لضمان تنوع العينة وتكرار النتائج.

نماذج تتفوق في “إقناع البشر”

اختبر الباحثون أربعة أنظمة مختلفة، من بينها نماذج حديثة مثل «GPT-4.5» و«LLaMa 3.1 – 405B»، إلى جانب نماذج أقدم مثل «GPT-4» و«ELIZA» للمقارنة.

وأظهرت النتائج أن «GPT-4.5» تم تصنيفه على أنه الإنسان في 73% من الحالات عندما طُلب منه تبني شخصية بشرية محددة. فيما بلغ أداء «LLaMa 3.1» نحو 56%، وهي نسبة اعتبرها الباحثون غير قابلة للتمييز إحصائيًا عن أداء البشر في السياق ذاته.

في المقابل، سجلت النماذج الأقدم أداءً أضعف بكثير؛ إذ لم تتجاوز نسبة تصنيفها كبشر 23% في حالة «ELIZA»، و21% في حالة «GPT-4».

“الشخصية” سر الإقناع

تشير الدراسة إلى أن العامل الحاسم في نجاح النماذج لم يكن حجم المعرفة أو الدقة في الإجابات، بل القدرة على تبني “شخصية بشرية” في أسلوب الحوار.

فعندما طُلب من النماذج التصرف بأسلوب اجتماعي طبيعي—يتضمن ترددًا، ودعابة، وإجابات غير مكتملة أحيانًا—ارتفعت قدرتها على إقناع المشاركين بأنها بشرية.

لكن عند إزالة هذه التعليمات، تراجعت النتائج بشكل واضح، إذ انخفضت نسبة تصنيف «GPT-4.5» كبشر إلى 36%، و«LLaMa 3.1» إلى 38%، ما يشير إلى أن “الإقناع البشري” يعتمد بدرجة كبيرة على توجيه النموذج سلوكيًا.

هل ما يزال اختبار تورينغ صالحًا؟

تثير الدراسة تساؤلات حول مدى صلاحية اختبار تورينغ في صورته التقليدية، إذ لم يعد يقيس “الذكاء” بقدر ما يقيس “التشابه السلوكي” في المحادثة.

ويرى الباحثون أن نجاح النماذج في تقليد أسلوب البشر لا يعني بالضرورة امتلاكها فهمًا أو وعيًا، بل يعكس قدرتها المتقدمة على محاكاة أنماط الحوار الإنساني.

فرص ومخاطر متزايدة

تحذر الدراسة من تداعيات هذا التطور على الثقة في البيئة الرقمية، إذ قد يصبح من الصعب على المستخدمين التمييز بين الحسابات البشرية والأنظمة الآلية في المحادثات اليومية.

ويفتح ذلك الباب أمام استخدامات إيجابية في مجالات مثل التعليم وخدمة العملاء والدعم الشخصي، لكنه في المقابل يثير مخاوف من توظيفه في الاحتيال أو التضليل أو التأثير السياسي، خاصة في غياب الإفصاح الواضح عن هوية الطرف المتحدث.

شفافية أكثر ضرورة من أي وقت مضى

تخلص الدراسة إلى أن الحدود بين المحادثة البشرية والمحادثة الآلية أصبحت أكثر ضبابية من أي وقت مضى، ما يستدعي تعزيز قواعد الشفافية ووضع آليات أوضح للتأكد من هوية الأنظمة المستخدمة في التواصل الرقمي.

وتؤكد أن القضية لا تتعلق بامتلاك الذكاء الاصطناعي “وعياً بشرياً”، بل بقدرته المتزايدة على تقليد البشر إلى درجة قد تربك حتى المستخدمين في محادثات قصيرة.