قواعد اتمام آزمون
روشهای اجرای CAT در دو طبقه اساسی قرار میگیرند. این طبقهبندی بر اساس قواعد اتمام آزمون تعریف میشود. آن ها یا دارای طول ثابت هستند و یا دارای طول متغیر. در آزمونهای CAT با طول ثابت، تعداد یکسانی سؤال برای هر آزمودنی اجرا میشود. بنابرین، آزمودنیهای متفاوت ممکن است با سطوح متفاوتی از دقت سنجش شوند، دقیقاً همانند آنچه در آزمونهای غیر انطباقی مرسوم میباشد. اگر آزمونی که برای آزمودنیها انتخاب میشود، مناسب باشد و به آسانی مورد هدف سنجش قرار گیرد، به دلیل اینکه، پاسخی که این نوع آزمودنی به آزمون خواهند داد، قابل پیشبینی خواهد بود و یا به دلیل اینکه توانایی آن ها در نقطهای قرار میگیرد که خزانهی سؤال غنی است، بسیار دقیقتر از آزمودنیهایی که به خوبی مورد هدف سنجش قرار نمیگیرند، مورد اندازهگیری قرار میگیرند. در مقابل، در آزمونهای CAT که طول متغیر دارند، هر آزمودنی به سطح ثابتی از دقت میرسد، و اگر نیاز باشد، تعداد متفاوتی سؤال برای آزمودنیهای مختلف اجرا میشود. در این نوع CAT، آزمودنیهایی که به خوبی مورد هدف سنجش قرار میگیرند، آزمون کوتاهتری نسبت به آزمودنیهایی که به طور ضعیفی مورد هدف سنجش قرار میگیرند، دریافت میکنند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
مجموعه قواعد توقف آزمون
یکی از عنصرهای تعیین کننده و مهم در CAT تصمیمی است که برای توقف آزمون گرفته میشود. اگر آزمون خیلی کوتاه باشد، این امکان وجود دارد که برآورد توانایی همراه با خطا باشد. همچنین، اگر آزمون طولانی باشد، باعث به هدر رفتن زمان و منابع میشود و سؤالات غیر ضروری به آزمودنیها ارائه میشود. آزمودنی خسته میشود و سطح عملکردش افت میکند، در نتیجه، اعتبار نتایج از بین میرود (لیناکر، ۱۹۹۹).
آزمونهای CAT زمانی متوقف میشود که؛
-
- خزانهی سؤال خالی شود: این مورد زمانی اتفاق میافتد که خزانهی سؤال کوچک باشد، و همه سؤالات برای آزمودنی اجرا شود.
-
- به حداکثر طول آزمون برسیم: طول آزمون از قبل تعیین شده باشد.
-
- مقیاس توانایی با دقت کافی برآورد شود: هر پاسخ، اطلاعات آماری در مورد میزان توانایی فراهم میکند. افزایش آگاهی با کاهش خطای استاندارد همراه است، که به دنبال آن دقت آزمون افزایش مییابد و زمانی که اندازهگیری به اندازه کافی دقیق باشد، آزمون متوقف میشود.
-
- مقدار توانایی به اندازه کافی دورتر از ملاک قبول-رد باشد: در سنجشهایی از CAT که آزمودنی در برابر سطح قبول یا رد ارزیابی میشود، آزمون زمانی متوقف میشود که تصمیم قبول یا رد از لحاظ آماری معین باشد و زمانی اتفاق میافتد که برآورد توانایی ۲ واحد S.E دورتر از سطح ملاک باشد، و یا زمانی که سؤالات کافی وجود نداشته باشد، در نتیجه، آزمون برای آزمودنی متوقف میشود تا تصمیم قبول-رد تغییر کند.
- آزمودنی رفتاری خارج از آزمون نشان دهد: برنامه های CAT این توانایی را دارند نظم الگوی پاسخ را کشف کنند، مانند انتخابهای نامربوط به گزینههای پاسخ یکسان یا الگوهای پاسخ نامربوط. همچنین، نحوه پاسخدهی به سرعت و یا به کندی را نیز کشف میکنند. در این مواقع سیستم CAT آزمون را متوقف میکند (لیناکر، ۲۰۰۰).
برآورد توانایی یا شیوه نمرهدهی
تقریباً در همه سنجشهای انطباقی کامپیوتری، از طریق برآورد توانایی، به فرد نمره داده میشود. چون این مؤلفهی CAT به مقدار زیادی بر انتخاب سؤال، طول آزمون، دقت اندازهگیری و نتیجه آزمون اثر میگذارد، یکی از مؤلفههای مهم CAT درنظر گرفته میشود. در اغلب موقعیتهای سنجش انطباقی کامپیوتری، برآوردهای پارامتر سؤال بر اساس IRT میباشد، و فرض بر این است که مقادیر این برآوردها بدون خطا و معلوم هستند و در خزانهی سؤال ذخیره شدند. بنابرین تنها پارامتری که در طول اجرای سنجش انطباقی باید برآورد شود، توانایی مکنون آزمودنی یعنی، میباشد. برآوردهای توانایی به دنبال هر پاسخ سؤال جدید برآورد میشود تا بهترین برآورد برای توانایی واقعی آزمودنی به دست آید. برآوردهای متوالی توانایی همچنان که آزمون اجرا میشود به دست میآید و برآورد موقت نامیده میشود. این قضیه این واقعیت را منعکس میکند که هر برآوردی تنها روی آنچه در مورد آزمودنی در آن نقطه از فرایند سنجش معلوم است، تکیه دارد. چندین روش برای محاسبه برآوردهای موقت در ادبیات مربوط به CAT وجود دارد که هریک دارای مزیتها و مشکلاتی هستند. سه روش مشهور توانایی عبارتند از؛ برآورد بیشینهی درست نمایی[۱۱۹] (MLE)، پسین مورد انتظار[۱۲۰] (EAP)، بیشینهی پسین[۱۲۱] (MAP). این دو روش آخر، مربوط به رویکرد بیزین هستند و به ترتیب میتوانند به عنوان رویکردهای میانگین بیز و مد بیز نامیده شوند. این دو روش از نظر محاسباتی به یکدیگر شباهت بسیاری دارند و دارای زیربنای یکسانی هستند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). این سه روش به دو رویکرد کلی روشهای بیزین (لرد، ۱۹۸۰) و روشهای بیشینه درست نمایی تقسیم میشوند. روش بیشینهی پسین (MAP)، را روش بیزین اوون نیز مینامند، و در اغلب برنامه های CAT نیز مورد استفاده قرار میگیرد (اوون، ۱۹۶۹؛ ۱۹۷۵)، از اینرو، از روشهای بیزین تنها روش بیزین اوون یا بیشینهی پسین در این فصل شرح داده میشود.
شیوه برآورد توانایی اوون (برآوردهای بیزین)
روش برآورد توانایی متوالی بیزین اوون (۱۹۶۹)، به عنوان بخشی از برنامهریزی سنجش انطباقی توسط او پیشنهاد شده است. در این رویکرد سؤالاتی انتخاب میشود که مقدار مورد انتظار واریانس پسین بیزین را به حداقل برساند. در هر صورت این شیوه برآورد توانایی با بهره گرفتن از ملاکهای دیگر انتخاب سؤال، در برنامهریزیCAT مفید درنظرگرفته میشود.
در واقع، روش بیزین اوون با یک توزیع پیشین توانایی شروع میکند. در این روش فرض بر این است که آزمودنی عضوی از جامعهای با توزیع نرمال توانایی با میانگین و واریانس شناخته شده میباشد. بعد از هر سؤال، میانگین و واریانس با بهره گرفتن از یک روش آماری مناسب اصلاح میشود. در این روش آماری، اطلاعات توزیع پیشین با نمره مشاهده شده (صحیح یا غلط) در سؤالی که اخیراًً پاسخ دادهشده و پارامترهای مدل IRT تست ترکیب میشود و توانایی جدید را برآورد میکند. مقادیر تجدیدنظر شده پارامترهای توزیع توانایی، توزیع پسین را تعیین میکنند، این مقادیر به عنوان توزیع پیشین برای سؤال بعدی به کارمیرود. این فرایند تا آنجا ادامه مییابد که آزمون به پایان برسد. در آن نقطه (پایان آزمون)، میانگین پسین به عنوان برآورد توانایی آزمودنی به کار میرود. معادلهی (۲-۳)، برآورد اوون برای اصلاح میانگین پیشین را نشان میدهد:
(۲-۳)