قواعد اتمام آزمون

روش‌های اجرای CAT در دو طبقه اساسی قرار می‌گیرند. این طبقه‌بندی بر اساس قواعد اتمام آزمون تعریف می‌شود. آن ها یا دارای طول ثابت هستند و یا دارای طول متغیر. در آزمون‌های CAT با طول ثابت، تعداد یکسانی سؤال برای هر آزمودنی اجرا می‌شود. ‌بنابرین‏، آزمودنی‌های متفاوت ممکن است با سطوح متفاوتی از دقت سنجش شوند، دقیقاً همانند آنچه در آزمون‌های غیر انطباقی مرسوم می‌باشد. اگر آزمونی که برای آزمودنی‌ها انتخاب می‌شود، مناسب باشد و به آسانی مورد هدف سنجش قرار گیرد، به دلیل این‌که، پاسخی که این نوع آزمودنی به آزمون خواهند داد، قابل پیش‌بینی خواهد بود و یا به دلیل اینکه توانایی آن ها در نقطه‌ای قرار می‌گیرد که خزانه‌ی سؤال غنی است، بسیار دقیق‌تر از آزمودنی‌هایی که به خوبی مورد هدف سنجش قرار نمی‌گیرند، مورد اندازه‌گیری قرار می‌گیرند. در مقابل، در آزمون‌های CAT که طول متغیر دارند، هر آزمودنی به سطح ثابتی از دقت می‌رسد، و اگر نیاز باشد، تعداد متفاوتی سؤال برای آزمودنی‌های مختلف اجرا می‌شود. در این نوع CAT، آزمودنی‌هایی که به خوبی مورد هدف سنجش قرار می‌گیرند، آزمون ‌کوتاه‌تری نسبت به آزمودنی‌هایی که به طور ضعیفی مورد هدف سنجش قرار می‌گیرند، دریافت می‌کنند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).

مجموعه قواعد توقف آزمون

یکی از عنصرهای تعیین کننده و مهم در CAT تصمیمی است که برای توقف آزمون گرفته می‌شود. اگر آزمون خیلی کوتاه باشد، این امکان وجود دارد که برآورد توانایی همراه با خطا باشد. همچنین، اگر آزمون طولانی باشد، باعث به هدر رفتن زمان و منابع می‌شود و سؤالات غیر ضروری به آزمودنی‌ها ارائه می‌شود. آزمودنی خسته می‌شود و سطح عملکردش افت می‌کند، در نتیجه، اعتبار نتایج از بین می‌رود (لیناکر، ۱۹۹۹).

آزمون‌های CAT زمانی متوقف می‌شود که؛

1. خزانه‌ی سؤال خالی شود: این مورد زمانی اتفاق می‌افتد که خزانه‌ی سؤال کوچک باشد، و همه‌ سؤالات برای آزمودنی اجرا شود.

1. به حداکثر طول آزمون برسیم: طول آزمون از قبل تعیین شده باشد.

1. مقیاس توانایی با دقت کافی برآورد شود: هر پاسخ، اطلاعات آماری ‌در مورد میزان توانایی فراهم می‌کند. افزایش آگاهی با کاهش خطای استاندارد همراه است، که به دنبال آن دقت آزمون افزایش می‌یابد و زمانی که اندازه‌گیری به اندازه کافی دقیق باشد، آزمون متوقف می‌شود.

1. مقدار توانایی به اندازه کافی دورتر از ملاک قبول-رد باشد: در سنجش‌هایی از CAT که آزمودنی در برابر سطح قبول یا رد ارزیابی می‌شود، آزمون زمانی متوقف می‌شود که تصمیم قبول یا رد از لحاظ آماری معین باشد و زمانی اتفاق می‌افتد که برآورد توانایی ۲ واحد S.E دورتر از سطح ملاک باشد، و یا زمانی که سؤالات کافی وجود نداشته باشد، در نتیجه، آزمون برای آزمودنی متوقف می‌شود تا تصمیم قبول-رد تغییر کند.

آزمودنی رفتاری خارج از آزمون نشان دهد: برنامه های CAT این توانایی را دارند نظم الگوی پاسخ را کشف کنند، مانند انتخاب‌های نامربوط به گزینه‌های پاسخ یکسان یا الگوهای پاسخ نامربوط. همچنین، نحوه پاسخ‌دهی به سرعت و یا به کندی را نیز کشف می‌کنند. در این مواقع سیستم CAT آزمون را متوقف می‌کند (لیناکر، ۲۰۰۰).

برآورد توانایی یا شیوه نمره‌دهی

تقریباً در همه‌ سنجش‌های انطباقی کامپیوتری، از طریق برآورد توانایی، به فرد نمره داده می‌شود. چون این مؤلفه‌‌ی CAT به مقدار زیادی بر انتخاب سؤال، طول آزمون، دقت اندازه‌گیری و نتیجه‌ آزمون اثر می‌گذارد، یکی از مؤلفه‌‌های مهم CAT درنظر گرفته می‌شود. در اغلب موقعیت‌های سنجش انطباقی کامپیوتری، برآوردهای پارامتر سؤال بر اساس IRT می‌باشد، و فرض بر این است که مقادیر این برآوردها بدون خطا و معلوم هستند و در خزانه‌ی سؤال ذخیره شدند. ‌بنابرین‏ تنها پارامتری که در طول اجرای سنجش انطباقی باید برآورد شود، توانایی مکنون آزمودنی یعنی، می‌باشد. برآوردهای توانایی به دنبال هر پاسخ سؤال جدید برآورد می‌شود تا بهترین برآورد برای توانایی واقعی آزمودنی به دست آید. برآوردهای متوالی توانایی همچنان که آزمون اجرا می‌شود به دست می‌آید و برآورد موقت نامیده می‌شود. این قضیه این واقعیت را منعکس می‌کند که هر برآوردی تنها روی آنچه ‌در مورد آزمودنی در آن نقطه از فرایند سنجش معلوم است، تکیه دارد. چندین روش برای محاسبه برآوردهای موقت در ادبیات مربوط به CAT وجود دارد که هریک دارای مزیت‌ها و مشکلاتی هستند. سه روش مشهور توانایی عبارتند از؛ برآورد بیشینه‌ی درست نمایی^[۱۱۹] (MLE)، پسین مورد انتظار^[۱۲۰] (EAP)، بیشینه‌ی پسین^[۱۲۱] (MAP). این دو روش آخر، مربوط به رویکرد بیزین هستند و به ترتیب می‌توانند به عنوان رویکردهای میانگین بیز و مد بیز نامیده شوند. این دو روش از نظر محاسباتی به یکدیگر شباهت بسیاری دارند و دارای زیربنای یکسانی هستند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). این سه روش به دو رویکرد کلی روش‌های بیزین (لرد، ۱۹۸۰) و روش‌های بیشینه درست نمایی تقسیم می‌شوند. روش بیشینه‌ی پسین (MAP)، را روش بیزین اوون نیز می‌نامند، و در اغلب برنامه های CAT نیز مورد استفاده قرار می‌گیرد (اوون، ۱۹۶۹؛ ۱۹۷۵)، از این‌رو، از روش‌های بیزین تنها روش بیزین اوون یا بیشینه‌ی پسین در این فصل شرح داده‌ می‌شود.

شیوه برآورد توانایی اوون (برآوردهای بیزین)

روش برآورد توانایی متوالی بیزین اوون (۱۹۶۹)، به عنوان بخشی از برنامه‌ریزی سنجش انطباقی توسط او پیشنهاد شده است. در این رویکرد سؤالاتی انتخاب می‌شود که مقدار مورد انتظار واریانس پسین بیزین را به حداقل برساند. در هر صورت این شیوه برآورد توانایی با بهره گرفتن از ملاک‌های دیگر انتخاب سؤال، در برنامه‌ریزیCAT مفید درنظر‌گرفته ‌می‌شود.

در واقع، روش بیزین اوون با یک توزیع پیشین توانایی شروع می‌کند. در این روش فرض بر این است که آزمودنی عضوی از جامعه‌ای با توزیع نرمال توانایی با میانگین و واریانس شناخته ‌شده می‌باشد. بعد از هر سؤال، میانگین و واریانس با بهره گرفتن از یک روش آماری مناسب اصلاح می‌شود. در این روش آماری، اطلاعات توزیع پیشین با نمره مشاهده شده (صحیح یا غلط) در سؤالی که اخیراًً پاسخ داده‌شده و پارامترهای مدل IRT تست ترکیب می‌شود و توانایی جدید را برآورد می‌کند. مقادیر تجدید‌نظر شده‌ پارامترهای توزیع توانایی، توزیع پسین را تعیین می‌کنند، این مقادیر به عنوان توزیع پیشین برای سؤال بعدی به کار‌می‌رود. این فرایند تا آنجا ادامه می‌یابد که آزمون به پایان برسد. در آن نقطه (پایان آزمون)، میانگین پسین به عنوان برآورد توانایی آزمودنی به کار می‌رود. معادله‌ی (۲-۳)، برآورد اوون برای اصلاح میانگین پیشین را نشان می‌دهد:

(۲-۳)

موضوعات: بدون موضوع

پنجشنبه 24 آذر 1401

فرم در حال بارگذاری ...

فید نظر برای این مطلب