Metode kalibrasi dan desain tes berdasarkan teori respon butir (IRT)
Abstract
Ketika akan menyusun perangkat soal untuk suatu tes, pengembang dapat menggunakan butir soal yang telah dikalibrasi ditambah dengan butir-butir soal baru. Pada keadaan ini, permasalahan yang muncul adalah bagaimana menempatkan parameter butir yang baru atau parameter butir pada tes sebelumnya, apakah perlu untuk ditempatkan pada skala butir-butir yang telah dikalibrasi atau pada skala yang baru. Cara untuk menempatkan parameter estimasi dari dua kelompok yang terpisah kedalam skala yang sama, dapat dilakukan dengan menghitung parameter estimasi untuk setiap kelompok dan kemudian mengubah skala dengan menggunakan common-items. Hal ini dapat dilakukan melalui proses kalibrasi. Butir-butir yang telah dikalibrasi ditempatkan sebagai butir bersama atau common-items pada perangkat soal yang baru. Ada tiga cara kalibrasi yaitu kalibrasi terpisah (separate calibration), kalibrasi serentak (concurrent calibration), dan kalibrasi tetap (fixed calibration).
Downloads
References
Ban, J-C., Hanson, B.A., Tianyou Wang, et al. (2001) A comparative study of on-line pretest item-calibration/scaling methods in computerized adaptive testing. Journal of Educational Measurement, 38, 191-212.
Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage Publications, Inc.
Hanson, B.A. & Beguin, A.A. (2002). Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design. Applied Psychological Measurement, 26, 3-24.
Hulin, C.L., Drasgow, F. & Parsons, C.K. (1983). Item response theory: Application to psychological measurement. Homewood, IL: Dow Jones-Irwin.
Kolen, M. J. & Brennan, R. L. (1995). Test equating: Methods and practices. New York: Springer.
Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices (2nd ed.). New York: Springer.
Lee, W-C & Ban, J-C. (2010). A comparison of IRT linking procedures. Applied Measurement in Education, 23, 23-48.
Li,-Y. H., Griffith, W. D., & Tam, H.P. (1997, June). Equating multiple tests via an IRT linking design: Utililizing a single set of common items with fixed common item parameters during the calibration process. Paper presented at the annual meeting of the psychometric society, Knoxville, TN.
Petersen, N.S., Kolen, M.J., & Hoover, H.D. (1989). Scaling, norming, and equating. Dalam Robert. L. Linn (Ed.) Educational Measurement. 3rd ed. (pp. 221-262). Washington, DC: American Council on Education.
Taehoon Kang & Petersen, N. (2009). Linking item parameters to a base scale. ACT Research Report Series, 2009-2. Diambil tanggal 20 September 2010, dari http://www.act.org/ research/researchers/reports/pdf/ACT_RR2009-2.pdf.
Umar, J. (1999). Item banking. Dalam G.N. Masters & J.P. Keeves (Eds.). Advances in measurement in educational research and assessment (pp. 207-218) Oxford: Elsevier Science Ltd.
Wells, C.S., Subkoviak, M.J., & Serlin,K.C. (2002). The effect of item parameter drift on examinee ability estimates. Applied Psychological Measurement, 26, 77-87.
Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago: Mesa Press.
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Copyright by Author(s)