PENDAHULUAN
Iteman merupakan akronim dari Item and Test Analysis merupakan salah satu program analisis butir soal yang dapat digunakan untuk melakukan analisis tes pilihan ganda. Iteman merupakan metode analisis butir tes empirik model klasik.
Program ini termasuk dalam satu paket program dalam MicroCAT°n yang dikembangkan oleh Assessment Systems Corporation mulai tahun 1982 dan mengalami revisi pada tahun 1984, 1986, 1988, dan 1993; mulai dari versi 2.00 sampai dengan versi 3.50 dengan alamat; Assesment Systems Corporation, 2233 University Avenue, Suite 400, St Paul, Minesota 55114, United States of America (Das Salirawati).
Karena program ini menggunakan bantuan MS DOS, banyak komputer jinjing saat ini tidak kompatibel dengan program iteman. Kondisi ini saya hadapi pula diperkuliahan. Banyak teman-teman sekelas yang menggunakan komputer jinjing dengan software terbaru tidak dapat mengakses aplikasi ini dan harus mencari komputer jinjing dengan software keluaran lama. Saya tidak paham spesifikasi persis, sofware yang mana yang dapat mengakses aplikasi ini. Saya beruntung, saat tugas ini disusun, saya masih menggunakan laptop Axioo MNC butut yang saya beli di awal tahun 2009.
Saat ini telah tersedia program ITEMAN tinder yang kompatibel dengan Windows 95, Windows 98, NT, Windows 2000, ME, dan Windows XP. Tentu saja berbayar dengan harga $299. Perkembangan tinder komputer yang sangat pesat saat ini membuat semua tinder tersebut sudah tidak lagi tersedia pada komputer jinjing keluaran terbaru, sehingga saat perkuliahan ini berlangsung dibutuhkan komputer dengan operasi maksimal Windows XP.
Sayang sekali, karena sebagai dasar untuk melakukan analisis butir soal secara dasar, program ini cukup sederhana sebelum menggunakan program analisis tes pilihan ganda yang lain.
Das Salirawati menyebutkan program ini dapat digunakan untuk melakukan :
1) analisis data
file (format ASCII) jawaban butir soal yang dihasilkan melalui manual entry
data atau dari mesin scanner; seperti yang digunakan pada scanner untuk lembar jawaban komputer (LJK)
pada saat Ujian Nasional
2) penskoran dan analisis data soal pilihan ganda dan skala Likert untuk 30.000 siswa dan 250 butir soal;
3) analisis sebuah tes yang terdiri dari 10 skala (subtes) dan memberikan informasi tentang validitas setiap butir (daya pembeda, tingkat kesukaran, proporsi jawaban pada setiap option), reliabilitas (KR-20/Alpha), standar error of measurement, mean, variance, standar deviasi, skew, kurtosis untuk jumlah skor pada jawaban benar, skor minimum dan maksimum, skor median, dan frekuensi distribusi skor.
KRITERIA ANALISA DATA
Kriteria analisa data terdiri dari (1) kriteria untuk kualitas butir soal, dan (2) kriteria kualitas soal untuk mengetahui apakah soal dan pilihan jawaban telah bekerja sesuai tujuan penyusunan soal
1. Kriteria Analisis Butir Soal
Kriteria kualitas butir soal berdasarkan penetapan para tokoh
evaluasi yaitu Suharsimi Arikunto, (1993); dan
Saifuddin Azwar, (2018) relatif hampir sama sebagai berikut :
Tabel 1. Kriteria
Kualitas Butir Soal
|
Kriteria
Indeks Klasifikasi |
Nilai |
Keterangan |
|
Prop Corect (Taraf Sukar Soal atau p)
|
0,000 - 0,250 0,251 - 0,750 0,751 - 1,000 |
Sukar Sedang Mudah |
|
Point Biserial (Daya beda atau D)
|
D < 0,199 0,200 - 0,299 0,300 - 0,399 D > 0,400 |
Jelek Ada Catatan Baik Sangat Baik |
|
Prop Endorsing (Proporsi jawaban)
|
0,000 - 0,010 0,011 - 0,050 0,051 - 1,000 |
Kurang Cukup Baik |
|
Alpha (Reliabilitas soal)
|
0,000 - 0,400 0,401 - 0,700 0,701 - 1,000 |
Rendah Sedang Tinggi |
2. Kriteria Kualitas Soal
Kriteria
baik tidaknya butir soal menurut Ebel
dan Frisbie (1991) dalam Yuli
Prihatni (2019;15) adalah bahwa jika korelasi point biserial : >0,40 = butir
soal sangat baik; 0,30-0,39 = soal baik, tetapi perlu perbaikan; 0,20-0,29 =
soal dengan beberapa catatan, biasanya perlu perbaikan; <0,19 = soal jelek,
dibuang atau diperbaiki melalui revisi.
Tingkat
kesukaran butir soal memiliki skala 0 – 1. Semakin mendekati 1 soal tergolong
mudah dan jika skor prop correct atau
tingkat kesukaran mendekati 0 soal tergolong sukar. Jika nilai Prop Correct 0,00 – 0,30 = soal sulit,
dan 0,31 – 0,70 termasuk soal mudah dan >0,71 termasuk soal mudah.
Berdasarkan
pendapat para pakar evaluasi lainnya, dan memudahkan
memilah-milah butir soal mana yang perlu direvisi atau didrop maka disusun table kriteria sebagai berikut ;
Tabel
2. Kriteria
Kualitas Soal untuk Kepentingan Pemilahan Butir
|
Kriteria Indeks Klasifikasi |
Nilai |
Keterangan |
|
Prop Correct (Tingkat
kesukaran/ p
) |
0,000
- 0,099 0,100
- 0,299 0,300
- 0,700 0,701
- 0,900 0,901
- 1,000
|
Sangat
Sukar Dibuang/perlu
revisi Sukar
/Perlu
direvisi Sedang
Baik Mudah
Perlu direvisi Sangat
Mudah Dibuang/perlu direvisi total |
|
Korelasi Point Biserial (Proporsi
jawaban)
|
D
< 0,199 0,200
- 0,299 0,300
- 0,399 D
> 0,400 |
Jelek, dibuang / perlu
direvisi total Rendah, Perlu perbaikan Baik, dengan atau tanpa perbaikan Sangat baik |
|
Biserial (Daya beda/D ) |
0,000
- 0,010 0,011
- 0,050 0,051
- 1,000 |
Kurang
Dibuang / perlu direvisi Cukup
Baik Baik
sekali |
|
Reliabilitas
soal |
0,000
- 0,400 0,401
- 0,700 0,701
- 1,000 |
Rendah
/Kurang
baik Sedang
Cukup Tinggi /Baik |
3. Istilah dalam Analisis Data
1)
N of items adalah jumlah butir soal dalam tes/skala yang
ikut dianalisis. Untuk tes/skala yang terdiri dari butir-butir soal dikotomi,
hal ini merupakan jumlah total butir soal dalam tes /skala.
2)
N of examines adalah jumlah peserta tes yang digunakan dalam
analisis.
3)
Mean adalah
skor rata-rata peserta tes.
4)
Variance adalah varian dari
distribusi skor peserta tes yang memberikan gambaran tentang sebaran skor
peserta tes.
5)
Std. Dev adalah deviasi standar dari distribusi skor
peserta tes. Deviasi standar adalah akar dari variance.
6)
Skew adalah
kemiringan distribusi skor peserta tes yang memberikan gambaran tentang bentuk
distribusi skor peserta tes. Kemiringan negatif menunjukan bahwa sebagian besar
skor berada pada bagian atas (skor tinggi) dari distribusi skor. Sebaliknya
kemiringan positif menunjukan bahwa sebagian besar skor berada bagian bawah
(skor rendah) dari distribusi skor. Kemiringan nol menunjukan bahwa skor
berdistribusi secara simetris di sekitar skor rata-rata (Mean).
7)
Kurtosis adalah puncak distribusi skor yang menggambarkan
kelandaian distribusi skor dibanding dengan distribusi normal. Nilai positif menunjukan
distribusi yang lebih lancip (memuncak) dan nilai negatif menunjukan distribusi
yang lebih landai (merata). Kurtosis untuk distribusi normal adalah nol.
8)
Minimum adalah skor terendah peserta tes dalam tes/skala
tersebut.
9)
Maximum adalah skor
tertinggi peserta tes dalam tes/skala tersebut.
10)
Median adalah skor
tengah dimana 50% skor berada pada atau lebih rendah dari skor tersebut.
11)
Alpha adalah
koefisien reliabilitas alpha untuk tes/skala tersebut yang merupakan indeks
homogenitas tes/skala. Koefisien alpha bergerak dari 0,0 sampai 1,0. Koefisien
alpha hanya cocok digunakan pada tes yang bukan mengukur kecepatan (speeded
test ) dan yang hanya mengukur satu dimensi (single-trait).
12)
SEM adalah
kesalahan pengukuran standar untuk setiap tes/skala. SEM merupakan estimit dari
deviasi standar kesalahan pengukuran dalam skor tes.
13)
Mean P adalah rata-rata tingat kesukaran semua butir
soal dalam tes secara klasikal dihitung dengan cara mencari rata-rata proporsi
peserta tes yang menjawab benar untuk semua butir soal dalam tes/skala.
14)
Mean item-Tot nilai rata-rata indeks daya pembeda dari semua
soal dalam tes/skala yang diperoleh dengan menghitung nilai rata-rata point
biserial dari semua soal dalam tes/skala.
15)
Mean-Biserial adalah juga nilai rata-rata indeks daya pembeda
yang diperoleh dengan menghitung nilai rata-rata korelasi biserial dari semua
butir soal dalam tes/skala.
16)
Scale intercorrelation adalah indeks korelasi antara skor-skor peserta
tes yang diperoleh dari setiap subtes/subskala.
Lanjut bagian Analisis Soal Pilihan ganda Menggunakan Program Iteman (2)
Tidak ada komentar:
Posting Komentar