سؤالی که اغلب در طول طراحی خزانهی سؤال پرسیده میشود این است که، “چه تعداد سؤال باید در خزانه وجود داشته باشد؟”. به طور ایده آل هر چه سؤالات بیشتر باشد، بهتر است، زیرا به ما این اجازه را میدهد که انتخاب بیشتری در سرهم کردن[۸۷] آزمونها داشته باشیم و بندرت سؤالات یکسانی در آزمونها تکرار شود و امنیت آزمون حفظ شود. در مواقعی که آزموندهندگان به خزانهی سؤال دست پیدا میکنند، اگر خزانه بزرگ باشد، برای آزمودنیها دشوار است که پاسخ سؤالات را حفظ کنند. همچنین، خزانههای بزرگتر دارای سؤالاتی میباشند که از لحاظ محتوا، فورمت سؤال و ملاحظات آماری با آزمون مورد نظر تطابق بیشتری دارند (میلمن و آرتر، ۱۹۸۴). البته خزانههای بزرگ خطرهایی دارند که عبارتند از اینکه، سؤالاتی که به خزانه اضافه میشوند باید خوب نوشته شوند، از لحاظ محتوایی معتبر باشند، و از لحاط آماری نیز مناسب باشند (لیناکر[۸۸]، ۱۹۸۷). همچنین تعداد سؤالات نباید خیلی زیاد باشد بلکه باید به اندازهای باشد که قابل کنترل باشد و بهراحتی بازیافتنی باشد (گو و ریکیسی، ۲۰۰۷).
سنجش انطباقی کامپیوتری[۸۹]
سنجش انطباقی چیست؟
سنجش انطباق کامپیوتری (CAT)، جایگزین قدرتمندتری برای مجموعهای از کاربردهای سنجش انطباقی موفقیتآمیزی است که با کار بینه[۹۰] در سال ۱۹۰۵ شروع شد. سنجش انطباقی در تعریف ساده، شامل سؤالاتی است که از یک مجموعه سؤال، که اصولاً به این مجموعه بانک یا خزانهی سؤال میگویند، انتخاب میشوند، بهطوریکه با سطح توانایی برآوردشده (یا سطح استعداد برآوردشده) آزمودنی مورد نظر مطابقت داشته باشند. اگر آزمودنی در پاسخ به سؤالی موفق شود و به آن پاسخ صحیح دهد، سؤالی که در مرحله بعدی به او ارائه میشود، اندکی دشوارتر[۹۱] خواهد بود و بالعکس. به طور کلی، در سنجش انطباقی کامپیوتری (CAT)، سؤالات به طور مجزایی برای هر یک از آزمودنیها انتخاب میشوند، بهطوریکه، هر سؤال بر اساس پاسخ به سؤال قبلی انتخاب میشود. هدف این نوع از سنجش این است که، برآورد صحیح و دقیقی از مهارت آزمودنی روی مقیاس زیربنایی مهارت به دست آید. تعداد سؤالات، نوع سؤالات و ترتیب ارائه آن ها از آزمودنی به آزمودنی دیگر متفاوت است (پارشال، اسپری، کالن و دیوی[۹۲]، ۲۰۰۲). معمولاً در این تکنیک بهسرعت مجموعهای از سؤالات تنظیم میشود، بهطوریکه با سطح توانایی آزمودنی همگرا باشد. زمانیکه برآورد توانایی آزمودنی به دقت مورد نظر برسد، آزمون متوقف میشود. در این شیوه، در صورتیکه آزمودنی بخواهد، میتواند فوراً از نتایج آزمون مطلع شود. همچنین، سنجش مقدماتی سؤالات جدید بانک سؤال و اعتباریابی کیفیت سؤالات جدید، میتواند به طور همزمان با اجرای آزمون انجام گیرد، البته مسئله اضافه کردن سؤالات جدید به خزانه و مدرج کردن دوباره آن ها امری مهم است که در پژوهش لیناکر(۱۹۸۷) بررسی شده است. مزایای CAT به طورخلاصه شامل موارد زیر است؛ سنجش سریعتر، طرحهای سنجشی انعطافپذیر، افزایش امنیت آزمون، کنترل بهتر مواجهه سؤال، تعادل بهتر سطوح محتوایی آزمون برای همه سطوح توانایی، بروز رسانی[۹۳] سریعتر سؤالات آزمون، گزارش سریعتر، تجربه بهتر یک آزمون برای آزمودنیها. همچنین مشکلات CAT، عبارتند از؛ تجهیزات و امکانات پرهزینه، محدودیتهای نرمافزارهای رایج اجرای CAT، ناآشنایی بسیاری از آزمودنیها با محیط کامپیوتر، عدم برابری مشهود (تبعیض) که آزمودنیهای متفاوتی، آزمونهای متفاوتی را دریافت میکنند و دشواری اجرای انواع معینی از آزمونها به شکل CAT (لیناکر، ۲۰۰۰؛ ۱۹۹۹).
تاریخچه سنجش انطباقی کامپیوتری
به طور کلی، همیشه آزمونها به منظور برآورده کردن نیازمندیهای آزموندهندگان و سنجش سطوح عملکرد مورد انتظار داوطلبان آزمون به عنوان یک گروه، ساخته میشوند. در واقع، اگر به یک آزمودنی، آزمونی که از سؤالات بسیار آسان تشکیل شدهاست ارائه شود، پاسخ به چنین آزمونی تنها زمان را به هدر میدهد و معمولاً رفتارهای ناخواستهی آزمودنی از قبیل اشتباهاتی که از روی بیدقتی صورت میگیرد را ایجاد میکند. معمولاً آزمودنی به صورت عمدی پاسخ نادرست در برابر «سؤالات فریبنده[۹۴]» میدهد. همچنین، نتایج آزمونی که از سؤالات بسیار دشوار تشکیل شده باشد نیز حاوی اطلاعاتی نمیباشد، زیرا داوطلب از تلاش جدی خود برای پاسخ به سؤالات دست بر میدارد، و با بهره گرفتن از حدس به سؤالات پاسخ میدهد، و یا انواع دیگری از رفتارهای ناخواسته از او سر میزند (لیناکر، ۲۰۰۰).
آلفرد بینه (۱۹۰۵)، با آزمون هوش خود به پیشرفتههای عمدهای در این حوزه رسید. از آنجایی که علاقه او تشخیص هوش هر یک از آزمودنیها به صورت مجزا بود، بحثی در مورد منصفانه بودن آزمون مطرح نمیشد، بحثی که این ضرورت را ایجاد کند که هر فردی آزمون یکسانی دریافت کند. او متوجه شد که میتواند آزمون را با هر فرد از طریق طرح ساده مرتب سازی سؤالات برحسب سطح دشواریشان، متناسب کند. او سپس با زیرمجموعهای از سؤالات که فرض میکرد با سطح توانایی آزمودنی مطابق است، شروع میکرد. اگر آزمودنی در آن زیر مجموعه موفق میشد، بینه با زیرمجموعههایی از سؤالات دشوارتری به پیش میرفت، تاجاییکه آزمودنی مکرراً شکست بخورد. اگر آزمودنی در زیرمجموعه اول سؤال شکست میخورد، او زیرمجموعههایی از سؤالات آسانتر را اجرا میکرد، تاجایی که آزمودنی مکرراً موفق شود. از این اطلاعات، بینه سطح توانایی آزمودنی را برآورد میکرد (لیناکر، ۲۰۰۰؛ ۱۹۹۸؛ وندر لیندن و گلاس،). شیوه سنجش انعطافپذیر[۹۵] لرد[۹۶] (۱۹۸۰)، و انواع دیگر آن از قبیل شیوه مرحلهای[۹۷] هنینگ[۹۸] (۱۹۸۷)، و مجموعه تست[۹۹] لوئیسو شین[۱۰۰] (۱۹۹۰)، روشهای بهبود یافتهای از شیوه بینه هستند. این شیوه ها بهراحتی میتوانند به وسیله اجرای شخصی یا به وسیله کامپیوتر، اجرا شوند. سؤالات در این روشها بر اساس سطح دشواریشان طبقهبندی میشوند، و زیر مجموعه های متعددی از سؤالات در هر سطح ایجاد میشود. آزمون با اجرای زیرمجموعههایی از سؤالات پیش میرود، و برطبق نسبت موفقیت در هر خرده آزمون به طرف بالا یا پایین حرکت میکند. بعد از اجرای زیرمجموعههای متعدد، برآورد توانایی پایانی آزمودنی به دست میآید. هرچند این رویکرد خام است، ولی این روشها میتوانند به طورمفیدی نتایج یکسانی مانند تکنیکهای پیچیدهتر CAT، ایجاد کنند (یاو[۱۰۱]، ۱۹۹۱).