۳۱/۰

۵۹/۰

۶۲/۰

۷۰/۰

۱۳/۱

۱۲/۱

ROP_17

۷۴۱/۲۶

I₁₉

ROP_17

۲۶/۰

۵۲/۰

۵۵/۰

۶۱/۰

۸۸/۰

۹۹/۰

ROP_18

۹۹/۲۶

I₂₀

ROP_18

۲۷/۰

۵۳/۰

۵۶/۰

۶۲/۰

۸۹/۰

۰۰۹/۱

نتایج جدول ۴-۳۰ نیز، با نتایج جدول ۴-۲۹ هماهنگ است. تنها تفاوت آنها وارد شدن عامل تعادل محتوایی است. از آنجا که اندازه‌ی خزانه‌های این مرحله با مراحل قبل متفاوت است، مقایسه‌ی نتایج این دو جدول غیر ممکن است. تنها نتیجه‌ای که در اینجا نیز به چشم می‌خورد این است که، عامل S-H استفاده از خزانه را متعادل‌تر می‌کند.
فصل پنجم
بحث و نتیجه‌گیری
بحث و نتیجه گیری
مقدمه
شش مولفه‌ی عمده‌ی CAT که عبارتند از: خزانه‌ی سؤال، شیوه‌ی انتخاب سؤال، شیوه‌ی نمره‌دهی یا برآورد توانایی، قاعده‌ی اتمام آزمون (ریکیسی، ۱۹۸۹)، کنترل مواجهه سؤال و تعادل محتوایی (برگستروم و لانز، ۱۹۹۹)، بر روی نحوه‌ی طراحی الگوریتم‌های CAT تاثیر فزاینده‌ای دارند. مفهوم خزانه‌ی سؤال یکی از مولفه‌های جالب توجه مرتبط به CAT می‌باشد که مطالب محدودی در مورد آن وجود دارد. با‌ این‌وجود، می‌دانیم که ویژگی‌های جذاب روان سنجی CAT، در صورتی تحقق می‌یابد که سؤالات آزمونی که برای اجرا به کار می‌روند مناسب باشند (ریکیسی، ۲۰۱۰). مولفه‌ی خزانه‌ی سؤال بهینه باید بر اساس مولفه‌های دیگر CAT یعنی، طول آزمون، توزیع مورد انتظار جامعه‌ی آزمودنی، برآورد توانایی و شیوه‌ی انتخاب سؤال، نرخ‌های همپوشی و مواجهه هدف سؤال طراحی شود (برگستروم و لانز، ۱۹۹۹). به عبارت دیگر، سنجش انطباقی کامپیوتری به خزانه‌ی سؤالی نیاز دارد که به‌خوبی طراحی شده باشد، و شامل تعداد مناسبی از سؤالات برای ساخت آزمون‌های مجزا یا فردی^[۲۲۰] باشد، که با سطوح توانایی آزمودنی‌ها مطابقت داشته باشد. همچنین، یک خزانه‌ی سؤال بهینه باید شامل سؤالاتی باشد که از لحاظ محتوایی تعادل داشته ‌باشند و هزینه‌ی ساخت سؤال را کاهش دهد (گو، ۲۰۰۷). بنابراین، هدف اصلی این پژوهش، بررسی خزانه‌ی سؤال به عنوان یکی از مولفه‌ای مهم در حوزه‌ی تحقیقاتی سنجش انطباقی کامپیوتری بود، حوزه‌ای که تحقیقات اندکی در مورد آن وجود دارد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در این فصل ابتدا، تعریف خلاصه‌ای از “بهینه‌گی” در طراحی خزانه‌ی سؤال را ارائه می‌کنیم و در مورد این‌که چگونه در این مطالعه به‌طور موفقیت آمیزی ملاک‌های بهینه بودن برقرار شد، بحث خواهیم کرد. در مرحله‌ی دوم، رویکرد ریکیسی را در مقابل رویکرد برنامه‌نویسی ریاضی بررسی کرده و تلفیقی که از این دو رویکرد در مورد ساخت خزانه‌های سؤال و نگهداری از خزانه‌ها را به همراه نتایجی که در پژوهش حاضر به آن رسیدیم را بررسی خواهیم کرد. در مرحله‌ی سوم، سؤالات تحقیق مطرح شده و بر اساس نتایج به‌دست آمده، پاسخ هر یک از آنها ارائه خواهد شد. در مرحله چهارم، تلویحاتی که از نتایج این پژوهش بدست آمده است، مورد بررسی قرار می‌گیرد و در پایان محدودیت‌های این مطالعه و پیشنهادات پژوهشی برای آینده را بحث خواهیم کرد.
تعریف بهینه بودن
در این پژوهش، از رویکرد اکتشافی برای ایجاد خزانه‌ی سؤال بهینه برای CAT و با بهره گرفتن از روش انتخاب سؤال WDM در تعیین محتواهای سؤالات استفاده شد. در پایان دوازده الگوی طراحی خزانه‌ی سؤال به عنوان محصول نهایی رویکرد اکتشافی و شش الگو به عنوان محصول نهایی ترکیب دو رویکرد اکتشافی و برنامه‌نویسی ریاضی ایجاد شد، که می‌تواند ویژگی‌های آماری (روان‌سنجی) و غیر آماری سؤال‌های مورد نیاز در خزانه را توصیف ‌کند. این الگوها اطلاعات مهمی در مورد ویژگی‌های خزانه‌های بهینه‌ی سؤال آشکار می‌کنند. این اطلاعات شامل: توزیع پارامترهای سؤالات، شاخص‌های آماری پارامترهای خزانه‌ها، نحوه‌ی عملکرد این خزانه‌ها در اجرای شبیه‌سازی شده‌ی CAT، میزان تخطی از قیود محتوایی برای آزمون‌هایی که از این خزانه‌ها ساخته می‌شود و در پایان اندازه‌ی خزانه سؤال می‌باشد. در این پژوهش، از طریق سه روش متفاوت (R، MRP، MTI) پارامترهای بهینه سؤال، شبیه‌سازی شدند. مک‌برید و وایس، (۱۹۷۷) از روش R، و P برای پیش‌بینی و برآورد پارامترهای سؤالات، بر اساس نظریه‌ی IRT در آزمون‌های غیر CAT استفاده کردند. گو و ریکیسی (۲۰۰۷) از دو روش P و MTI برای طراحی پارامترهای بهینه خزانه‌ی سؤال در CAT استفاده کردند. همچنین، هی و ریکیسی (۲۰۱۰)، نیز از سه روش R، MRP، MTI با در نظر گرفتن پهناهای متفاوت b-bin و تغییرات آگاهی که سؤال ایجاد می‌کند، استفاده کردند، امّا، هیچ پژوهشی تعامل این روش‌ها را با شیوه‌های کنترل مواجهه‌ سؤال و ایجاد تعادل محتوایی مورد بررسی قرار نداده است. در مجموع، تا به امروز پژوهشی که بتواند به تمام جنبه‌های طراحی یک خزانه‌ی سؤال بهینه برای بهبود عملکرد سنجش انطباقی کامپیوتری توجه کند، به چشم نخورده است. در این پژوهش ما برای طراحی خزانه‌های سؤال “ایده‌آل” یا “کامل"، برای CAT، از تلفیق دو رویکرد مهم و شناخته شده‌ی اکتشافی و برنامه‌نویسی ریاضی در ساخت خزانه‎‌های سؤال استفاده کردیم. همچنین، با کنترل و دستکاری متغیرهای اساسی که بر عملکرد خزانه‌ها تاثیر می‌گذارد، مدل‌های مختلفی ایجاد کردیم که نتایج آنها در فصل چهارم بیان شد. در این پژوهش با دستکاری چهار عامل: روش ایجاد سؤال بهینه (R، MRP، MTI)، پهنای b-bin (2/0 و ۴/۰)، کنترل یا عدم کنترل مواجهه‌ بیش از حد سؤال با روش سیمپسون-هتر (S-H) و ایجاد یا عدم ایجاد تعادل محتوایی برای اجرای CAT، ۱۸ مدل طراحی خزانه‌ی سؤال بهینه (ROP_1, ROP_2, ROP_3, …., ROP_18) ایجاد شد.
همه‌ی خزانه‌های سؤال بهینه‌ای که در این پژوهش طراحی شد، صرف‌نظر از عواملی چون کنترل مواجهه، تعادل محتوایی، روش ایجاد سؤال بهینه و پهنای b-bin، عملکرد بهتری نسبت به خزانه‌های عملیاتی داشتند. دلیل این امر این است که، در مجموع، الگوهای خزانه‌ی سؤال بهینه در جستجوی مطلوب‌ترین و مناسب‌ترین ترکیب سؤالات برای تشکیل یک خزانه‌ی سؤالی هستند که از طریق آن بتوان تعداد زیادی از تست‌های انطباقی را سرهم کرد. با این وجود، در دنیای واقعی خزانه‌ی سؤالی وجود ندارد که به طور مطلقی بهینه باشد، زیرا به تعداد عوامل و ترکیب‌های متفاوتی از سؤالات موجود در خزانه محدود می‌شود. این دلایل باعث می‌شود که هریک از این نوع خزانه‌ها دارای صحت و دقت اندازه‌گیری متفاوتی باشند و هریک از لحاظ بهینه بودن کاملاً از یکدیگر متفاوت باشند. بنابراین، خزانه‌های بهینه ممکن است هر یک از لحاظ مولفه‌ای بهینه باشند. امّا، در کل، هدف کلی برای الگوهای خزانه‌ی سؤال بهینه این است که دارای سه ملاک مهم باشند که توسط وندرلیندن (۱۹۹۹) ارائه شده است:
ملاک اول: خزانه‌ی سؤال به اندازه‌ی کافی بزرگ باشد تا این اجازه را به ما بدهد تا چندین هزار خرده آزمون همپوش از سؤالات آن استخراج کنیم.
ملاک دوم: خزانه‌ی سؤال شامل سؤالاتی باشد که دارای دامنه‌ی کاملی از سطح دشواری سؤال در ارتباط با جمعیت موردنظری که آزمون برای آنها طراحی می‌شود، باشد.
ملاک سوم: خزانه‌ی سؤال شامل ترکیب مناسبی از سؤالاتی با ضرایب تشخیص بالا و پایین باشد تا در حالی که ضرورت‌های مربوط به دقت اندازه‌گیری تست را برآورده می‌کند، هزینه‌ی طراحی سؤال را به حداقل برساند.
برقرار کردن ملاک اول در کل و در این مطالعه زیاد دشوار نیست، زیرا حداقل اندازه‌ی خزانه می‌تواند به عنوان طول تست تقسیم بر نرخ مواجهه‌ هدف، تفسیر شود. حال اگر نرخ مواجهه برابر با یک باشد، یعنی، هیچ عامل کنترل‌گر نرخ مواجهه در شبیه‌سازی وارد نشده است و اندازه‌ی سؤال کمتر از زمانی می‌شود که این عامل وارد می‌شود. در کل توصیه‌هایی در مورد اندازه‌ی خزانه‌ی سؤال در ادبیات تحقیق وجود دارد که ضمن بررسی آنها، نتایج پژوهش حاضر را با آنها مقایسه می‌کنیم:
استوکینگ (۱۹۹۴)، مباحث متنوعی در مورد اندازه‌ی خزانه‌ی سؤال در مورد آزمون‌های ورودی سرنوشت ساز که به شکل CAT اجرا می‌شود، مطرح کرد. استوکینگ با بررسی تجربی خود بر روی پنج خزانه‌ی سؤال عملیاتی برای پنج آزمون با طول ثابت CAT یک قاعده‌ی سرانگشتی^[۲۲۱] ارائه کرد. این قاعده بیان می‌کرد که یک خزانه‌ی سؤال CAT برای آزمون‌های سرنوشت ساز، ۱۲ برابر طول آزمون CAT باشد. وای^[۲۲۲] (۱۹۹۸) این قاعده‌ی سرانگشتی را به عنوان یک “توصیه محتاطانه^[۲۲۳]” (ص ۲۳) و یک “راهنمای با ارزش^[۲۲۴]” (ص، ۲۴) تفسیر کرد. همچنین، استوکینگ، به این نتیجه نیز رسید که حدود ۶ تا ۸ فرم نهایی از یک آزمون مداد-کاغذی موجود، برای ساخت یک خزانه‌ی سؤال CAT کافی است. همچنان که در فصل چهارم مشاهده کردیم، همه‌ی ROP هایی که در این مطالعه از طریق روش bin-and-union ایجاد شدند، انداز‌های خزانه‌ی سؤال آنها از ۱۱۳ تا ۲۸۴ سؤال، در خزانه‌هایی که بدون کنترل مواجهه ساخته شده بودند و از ۱۷۳ تا ۳۱۴ در خزانه‌هایی که با کنترل مواجهه ساخته شد، بود. در این مطالعه، تنها خزانه‌های سؤالی که با روش R ایجاد شده بودند، بیشتر از ۲۴۰ ( )، سؤال داشتند. در مورد خزانه‌هایی که با تعادل محتوایی ساخته شدند نیز اندازه‌ی خزانه‌های سؤال از ۴۹۶ تا ۶۹۹ در نوسان بود، هیچکدام از خزانه‌ها بیشتر از ۷۲۰ ( ) سؤال نداشتند. در این مطالعه زمانی‌که نسبت اندازه‌ی خزانه‌ی سؤال بر طول تست (یعنی، ۲۰ و ۶۰ ) تقسیم می‌شود، مشاهده می‌شود که نسبت‌ها بین ۶ تا ۱۲ برای ۱۴ مورد از ROPها و برای ۴ مورد دیگر بین ۱۲ تا ۱۶ بود. بنابراین، به عبارت دیگر، روش bin-and-union به اندازه‌ی زیادی با توصیه‌ی استوکینگ برای ساخت یک خزانه‌ی سؤال با اندازه‌ی کافی برای یک برنامه‌ی CAT سازگار است. این نتایج نشان می‌دهد که ملاک اولی که وندرلیندن در مورد خزانه‌های سؤال بهینه مطرح کرد، در مورد خزانه‌های سؤال بهینه در پژوهش حاضر برقرار است.