•  
  •  
 

Jurnal Penelitian dan Evaluasi Pendidikan

Keywords

skor tampak, skor kemampuan, skor sesungguhnya, model penskoran

Document Type

Article

Abstract

Penelitian ini bertujuan untuk mendeskripsikan: 1) karakteristik tes UN mata pelajaran matematika tingkat SLTP tahun 2007/2008, 2) karakteristik distribusi skor sesungguhnya hasil estimasi beberapa model penskoran, 3) hubungan antara skor kemampuan dan skor tampak dengan skor sesungguhnya, dan 4) implikasi penerapan model penskoran terhadap estimasi skor sesungguhnya. Data penelitian ini berupa respons siswa SMP/MTs terhadap tes Ujian Nasional (UN) mata pelajaran matematika tahun 2007/2008 di Propinsi Nusa Tenggara Barat. Analisis dilakukan dengan pendekatan kuantitatif. Hasil analisis menunjukkan bahwa tes UN mata pelajaran matematika tahun 2007/2008 tingkat SMP/MTs pada kategori sulit, memiliki rerata daya pembeda baik, tetapi rerata indeks pseudo-guessing kurang baik. Rerata skor sesungguhnya yang paling tinggi diperoleh pada model penskoran jumlah benar sesungguhnya, sedangkan rerata paling kecil terjadi pada model penskoran koreksi terhadap tebakan. Hubungan antara skor kemampuan () dengan skor sesungguhnya menunjukkan korelasi positif dengan nilai koefisien korelasi sangat tinggi. Rerata hasil estimasi skor sesungguhnya dari ketiga model penskoran menunjukkan perbedaan yang signifikan. Kata kunci: skor tampak, skor kemampuan, skor sesungguhnya, model penskoran

First Page

246

Last Page

276

Issue

2

Volume

13

Digital Object Identifier (DOI)

10.21831/pep.v13i2.1412

References

Allen, M.J. & Yen, W.M. (1979). Introduction to measurement theory. Monterey: Wardsworth, Inc.

Baker, F.B. (2001). The basics of item response theory, 2ndEd. ERIC Clearinghouse on Assessment and Evaluation. Diambil tanggl 17 Mei 2008 dari http://info.worldbank.org/etools/docs/library/117765/Item% 20Response%20Theory%20-%20F%20Baker.pdf.

Chopin, B. H. (1988). Correction for questing. (J. P. Keeves, ed.). Educational Research, Methodology, and Measurement: An International Handbook(pp. 384 –386). Oxford:Pergamon Press.

Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt, Reinhart, and Winston, Inc.

Mardapi,D. (1999). Estimasi kesalahan pengukuran dalam bidang pendidikan dan implikasinya pada ujian nasional. Pidato pengukuhan guru besar, diucapkan di depan rapat senat terbuka UNY.

____. (2002). Bukti kesahihan dan keandalan alat ukur: Tanggapan atas artikel ”Tes keterampilan olahraga judo bagi mahasiswa”. Jurnal Kependidikan, 1, 111 –121.

Garcí–Pérez, M.A. & Frary, R.B. (1989) Psychometric properties of finite–state scores versus number–correct and formula scores: A simulation study. Applied Psychological Measurement, 13, 403–417. Diambil tanggal 25 Januari 2009 dari http://www.ucm.es/centros/ cont/descargas/documento11676.pdf.

Gregory, R.J. (2007). Psychological testing. History, principles, and application, fifth edition. New York: Pearson Education, Inc.

Gronlund, N.E. & Linn, R.L. (1990). Measurement and evaluation in teaching. New York: MacMillan Publishing Company.

Hambleton, R.K., Swamintahan, H., & Roger, H.J. (1991). Fundamental of item response theory. London: Sage Publication.

Hambleton, R.K., Swamintahan, H., & Roger, H.J. (1985). Item responsetheory.Boston: Kluwer Nijhoff Publishing.

Hulin, C.L., Dragsow, F., & Parson, C.K. (1983). Item response theory application to psychological measurement. Illionis: Dowjones-IRWIN.

Lord, F.M. (1980). Application of item response theoryto practice testing problem. New Jersey: Lawrence Elbaum Associates.

Nitko, A., & Brookhart, S.M.(2007). Educational assessment of students(5thEd.). New Jersey: PEARSON Merrill Prentice Hall.

Prihoda, T.J., Pinckard, R.N., McMahan, A., et al. (2006). Correction for guessing increases validity in multiple-choice examination in an oral and maxillofacial pathology course. Journal of Dental Education, 70, 378-386. Diambil tanggal 14 Juli 2008 dari http://www.jdentaled. org/cgi/reprint/70/4/378?ijkey=7ab362cad936711fc829e20a2ee6b7ceb3239b7e.

Rudner, L.M. (2001). Informed test component weighting. Educational Measurement: Issues and Practice,20, 16-19

Sax, G. (1980). Principles of educational and psychological measurement and evaluation. Belmont:Wardsworth Publication Company, Inc.

Satoridona, L.S., van der Linden, W.J., & Meijer, R.R. (2006). Detecting answer copying using the Kappa statistic. Applied Psycological Measurement, 30, 412-431.

Simon, A.B., Budescu, D.V. & Nevo, B. (1997). A comparative study of measures of partial knowledge in multiple-choice tests.Applied Psychological Measurement, 21, 65-88. Diambil tanggal 14 Juli 2008 dari http://apm.sagepub.com/cgi/reprint/21/1/65.

Stocking, M.L. (1999). Item response theory. Dalam G.N. Master & J.V. Keeves (Eds.), Advences in Measurement in Educational Research and Assesment(pp.43-54). Amsterdam: Pergamon.

Taehoon Kang & Cohen, A.S. (2007). IRT model selection methodes for dichotomous items. Applied Psychological Measurement, 31, 331-358. Diambil tanggal 25 Januari 2009 dari http://apm.sagepub.com/cgi/content/abstract/31/4/331.

Thissen, D. & Orlando, M. (2001). Item response theory for items scored in two categories. Dalam D.Thissen & M. Orlando (Eds.), Test Scoring(73-140). London: Lawrence Erlbaum Associates.

Thorndike, R.M. (2005). Measurement and evaluation in psychology and education, 7thedition. New Jersey. Pearson Education, Inc.

Wary, J. (1995). Critical value of questing on true-false and multiple choice tests. Paper presented at theAnnual Meeting of the American Educational Research Association, San Francisco.

Wells, C.S., Hambelton, R.K., & Urip Purwono. (2008). Assessing the fit of IRT models to item response theory, Makalah Disampaikan pada Pelatihan Psikometri, di Universitas Negeri Yogyakarta.

Share

COinS