•  
  •  
 

Jurnal Penelitian dan Evaluasi Pendidikan

Authors

Purwo susongko

Keywords

keefektifan, bentuk tes, graded response model

Document Type

Article

Abstract

Abstrak

Penelitian ini bertujuan untuk menemukan: (1) perbandingan nilai fungsi informasi item pada bentuk tes uraian dan testlet secara empirik dan simulasi, (2) pengaruh banyaknya item dan ukuran sampel terhadap perbandingan nilai fungsi informasi item pada bentuk tes uraian dan testlet secara simulasi, dan (3) keakuratan pemodelan GRM pada bentuk uraian dan testlet. Data empirik diambil dari respons siswa terhadap tes bentuk uraian dan bentuk testlet dari 772 siswa SMA kelas XI yang tersebar di lima SMA di Kabupaten Tegal. Bentuk tes uraian dan testlet bersama-sama diberikan pada siswa pada akhir semester I dan di awal semester II dengan waktu tenggang minimal 1 bulan. Data pada penelitian simulasi dibangkitkan dari parameter item hasil estimasi pada penelitian empirik dengan program WinGen 2. Hasil penelitian menunjukkan bahwa: (1) secara empirik dan simulasi, tes yang disajikan dalam bentuk uraian cenderung memiliki nilai fungsi informasi item yang lebih tinggi dibanding dengan tes yang disajikan dalam bentuk testlet, (2) secara simulasi, ada pengaruh banyaknya item dan ukuran sampel terhadap perbandingan nilai fungsi informasi item pada bentuk tes uraian dan bentuk testlet, dan (3) pemodelan GRM pada bentuk tes uraian dan testlet paling akurat pada kondisi banyaknya item 20 dan ukuran sampel 2000. Kata kunci: keefektifan, bentuk tes, graded response model

First Page

269

Last Page

288

Issue

2

Volume

14

Digital Object Identifier (DOI)

10.21831/pep.v14i2.1082

References

Bastari (2000). Linking multiple-choice and construct-response items to a common proficiency scale. Disertasi tidak diterbitkan.University of Massachusetts, Amherst.

Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee's ability. Dalam F. M. Lord & M.R., Novick (Eds.). Statistical theories of mental test score (Bab 17-20). Reading, MA: Addison- Wesley.

De Ayala, R., J. (1993). An introduction to polytomous item respons theory models. Measurement and Evaluation in Counseling and Development , 25, 172-189.

Ebel, R., L. & Frisbie, D., A. (1986). Essentials of educational measurement.

Englewood Cliffs, NJ: Prentice Hall, Inc.

Embretson, S., E. & Reise, S., P. (2000). Item response theory for psychologists.

Mahwah, NJ: Lawrance Erlbaum Associates.

Emons, W.H.M, Meijer, R., R & Sijtsma, K.(2002). Comparing simulated and theoretical sampling distributions of the U3 person-fit statistic. Applied Psychological Measurement, 26, 88-108.

Feldt, L., S & Chorter, R., A. (2003). Estimating the reliability of a test split into two parts of equal or unequal length. Psychological Method, 8 (1), 102-109.

Gronlund, N., E. (1990). Measurement and evaluation in teaching. New York: Macmillan.

Hambleton, R., K. (1989). Principles and selected applications of item response theory. Dalam R.L. Linn (Ed.). Educational Measurement hal. 147-200. UK: Macmillan..

Hambleton, R., K. & Jones, R., W. (1994). Item parameter estimation errors and their influence on test information functions. Applied Measurement in Education, 7(3), 171-186.

Hambleton, R., K. & Swaminathan, H. (1985). Item response theory. Boston, MA: Kluwer.

Han, K., T. & Hambleton, R., K. (2007). User’s manual for WinGen. Amherst, MA: University of Masssachusetts Amherst.

Imam Ghozali & Fuad. (2005). Structural equation modeling, Semarang: Badan Penerbit Universitas Diponegoro.

Johnson, D., W. & Johnson, R., T. (2002). Meaningful assessment. Boston, MA: A Pearson Education Company.

Joreskog, K., G. & Sorbom, D., Toit, S., & Toit, M. (2000). LISREL 8: New statistical features. Chicago, IL:SSI, Inc.

Kaufman, R., & Thomas, S. (1980). Evaluation without fear. New York: New Viewpoints.

Kim, S. & Cohen, A. (2002). A comparison of linking and concurrent calibrated under the graded response models. Applied Psychological Measurement, 26(1), 25-41.

Muraki, E. & Bock, R., D. (1997). Parscale: IRT item analysis and test scoring for rating- scale data. Chicago: Scientific Software International, Inc.

Nonny Swediati. (1997). Equating tests under the generalized partial credit model. Disertasi tidak dipublikasikan. University of Massachussets at Amherst.

Reise, S.P. & Yu, J. (1990). Parameter recovery in the graded response model using MULTILOG. Journal of Educational Measurement, 27, 145- 163.

Setyo H. Wijayanto. (2002). Structural equation modeling & lisrel 8.51 for window. Tidak diterbitkan. Jurusan akuntansi, Fakultas Ekonomi UI.

Shepard, L.A. (2008). Commentary on the national mathematics advisory panel recommendations on assessment. Educational Reserarcher, 37 (9), 602-609.

Thissen, D. & Wainer, H. (2001). Test scoring. Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Zedner, M. (1987). Essay versus multiple-choice type classroom exam: the student perspective. Journal of Educational Research, 80 (6), 352-358.

Share

COinS