Generalisasi Validitas
oleh
Laily Amin Fajariyah
A.
Pendahuluan
Penelitian yang baik adalah suatu penelitian yang
mampu memberikan informasi yang valid/sahih atau memiliki ketepatan data antara
data yang telah dikumpulkan dengan data sesungguhnya yang ada di lapangan.
Peneliti akan berupaya besar untuk memenuhi ketepatan tersebut melalui prosedur
pengukuran yang cermat. Namun, terkadang informasi yang diperoleh melalui
prosedur pengukuran apapun bisa keliru. Kekeliruan tersebut bergantung pada
saat kondisi pengukuran, misalnya dikarenakan alat ukur yang digunakan, pengukur,
kondisi pencahayaan, dan lain sebagainya. Meskipun semua pengukuran bisa keliru
sampai batas tertentu, namun para ilmuwan terus mencari cara untuk meningkatkan
ketepatan atau presisinya (Brennan, 2001: 1).
Cara yang dilakukan oleh peneliti tersebut antara lain
adalah dengan mereka sering melakukan pengukuran pada subset yang telah
ditentukan. Selain itu, untuk meningkakan presisi pengukuran tersebut mereka
memperbaiki satu atau lebih kondisi pengukuran, sebagai contoh menggunakan alat
ukut yang lebih khusus. Namun, penggunaan alat ukur spesifik ini akan
memberikan batasan di mana penelitian tersebut akan digeneralisasi. Istilahnya,
memperbaiki pengukuran memang akan mengurangi kesalahan dan meningkatkan
ketepatan pengukuran, namun akan menyempitkan interpretasi pengukuran.
Hal ini membuktikan bahwa kesalahan atau kekeliruan
yang kita anggap sebelumnya ada bukanlah suatu kesalahan namun merupakan
pendefinisian. Sehingga menganggap suatu “kekeliruan” merupakan kesalahan
permanen pengukuran adalah sesuatu hal yang berbeda dengan menanggapi
“kekeliruan” tersebut dan kemudian menghitung ‘error’ yang ada dan menentukan
kondisi pengukuran mana yang berkontribusi padanya. Untuk melakukannya, perlu
menetukan apa yang dimaksud dengan pengukuran “ideal” seperti menentukan
kondisi yang tepat untuk mengeneralisasi penelitian dan kondisi mana skor yang
diamati diperoleh (Brennan, 2001: 2). Dari kasus inilah muncul istilah
generalisabiliti atau disebut generalisasi.
Brennan (2001: 2) mengatakan: “Generalizability
theory enables an investigator to identify and quantify the sources of
inconsistencies in observed scores that arise, or could arise, over
replications of a measurement procedure.!” Teori generalisasi memungkinkan seorang
penyelidik untuk mengidentifikasi dan menghitung atau mengukur sumber
ketidakkonsistenan dalam skor yang diamati yang muncul, mungkin muncul lebih
dari replikasi prosedur pengukuran. Selanjutnya makalah ini akan membahas
tentang generalisasi khususnya generalisasi validitas, terkait pengertiannya,
prosedurnya, dan contohnya dalam penilaian Bahasa Inggris.
B.
Teori Generalisasi (Teori G)
Sebelum kita membahas lebih dalam tentang generalisasi
validitas, akan kita pelajari dulu teori generalisasi. Dalam buku yang pertaman
tentang “Generalizability Theory” yang ditulis oleh Richard J. Shavelson dan
Noreen M. Web (Shavelson & Webb, 1991:1) disampaikan pengertian
generalisabilitas sebagai berikut. “Generalizability is a statistical theory
about the dependability of behavioral measurement.” Dari kalimat ini,
sebagai pendahuluan kita mengetahui bahwa generalisasi adalah teori tentang keandalan
pada pengukuran tingkah laku. Keandalan
yang dimaksudkan adalah ketepatan generalisasi dari skor yang diamati dari
suatu pengukuran terhadap rata-rata skor yang akan diterima seseorang dalam
berbagai kondisi yang ada. Sehingga dapat disimpulkan bahwa keandalan adalah
suatu asumsi atas pengetahuan, sikap, keterampilan dan atribut pengukuran
lainnya dalam kondisi yang stabil. Sehingga, kita asumsikan jika ada perbedaan
skor seseorang dalam pengukuran yang berbeda waktunya adalah suatu kesalahan
pengukuran dan bukan merupakan perubahan sistemik karena kematangan belajar
(Shavelson & Webb, 1991:1).
Teori klasik hanya mampu mempreduksi satu sumber kesalahan
saja, misalkan variasi skor dalam hal waktu pelaksanaan pengukuran dengan
penggunaan reliabilitas tes-retes. Sedangkan, G theory, atau teori generalisasi
mampu menganalisa berbagai macam eror/kesalahan yang terjadi dalam suatu
pengukuran dan dianalisa dalam satu waktu. Teori generalisasi menawarkan
kerangka kerja konseptual yang luas dan seperangkat prosedur statistik yang
kuat untuk menangani berbagai pengukuran masalah. Teori ini bisa dipandang
sebagai perpanjangan dari teori klasik melalui aplikasi prosedur analisis
varians tertentu (ANOVA) untuk masalah pengukuran. Dengan kata lain, Teori G
mampu membantu pengambil keputusan untuk menentukan berapa kesempatan, bentuk
tes dan administrator diperlukan untuk menghasilkan skor yang andal. Dalam
prosesnya, teori G mampu menyajikan koefisien yang menunjukkan keandalan, yang
disebut dengan koefisien generalisasi (Shavelson & Webb, 1991:12; Brennan,
2001:2).
Kerangka kerja teori-G menggabungkan
dua tahap yang sesuai dengan dua tahap desain tes: (a) studi generalisasi (G-),
yang menghasilkan informasi yang dapat digunakan untuk merancang tes dan (b) sebuah
studi decision (D-), yang dapat digunakan untuk membuat keputusan tentang
individu atau kelompok individu (misalnya, sekolah). Studi-G digunakan untuk
mengevaluasi kepentingan relatif dari berbagai sumber pengukuran kesalahan dan
selidiki dampak berbagai perubahan dalam desain pengukuran (mis., nomor yang
berbeda tugas atau penilai / peringkat). Studi-D menggabungkan desain terbaik
untuk memungkinkan interpretasi skor keakuratan dalam kerangka referensi
relatif atau yang direferensikan norma atau dalam referensi absolut atau
kriteria (Brennan, 2001).
C.
Generalisasi Validitas/Validity Generalizability (VG)
Validitas merupakan hal utama dalam mengevaluasi kelayakan
interpretasi skor tes dan memberikan kerangka kerja umum untuk mengevaluasi
pengukuran. Selain itu, dalam kaitannya penggunaan suatu hasil penelitian untuk
diberlakukan ke kelompok di luar penelitian, maka persoalan lain yang disebut
validitas ekternal akan muncul. Sehingga meskipun penelitian tersebut telah
memiliki validitas ekternal, namun tingkat generalisasinya tetap menjadi suatu
pertimbangan (Andi Ulfa Tenri Pada, 2014: 1). Dari kasus generalisi dan
validitas inilah maka muncul kajian validity generalizability (biasa
disingkat VG yang akan diadaptasi dalam makalah ini, meskipun dalam Bahasa
Indonesianya adalah generalisasi validitas).
Biddle and Nooren (2006: 220) memberikan gambaran yang
relatif jelas tentang generalisasi validitas/ validity generalizability (VG)
ini. VG disebut juga meta analisis yang dilakukan di bidang pengukuran. Meta
analisis dalam VG ini adalah suatu teknik statistik yang digunakan untuk
mengkombinasikan hasil dari beberapa studi penelitian yang membentuk teori umum
tentang hubungan beberapa variabel
(misalnya tes dan kinerja) dalam situasi yang berbeda-beda. Pentingnya
pelaksanaan VG dalam suatu penelitian adalah untuk mengevaluasi keefektivan
atau validitas tes tertentu dalam mendeskripsikan hasilnya dalam lingkup yang
luas.
Untuk memahami VG ini, beberapa dasar statistik perlu
dipelajari. Bagian yang tak terpisahkan dari VG adalah koefisien validitas
yaitu pengukuran secara statistik yang menunjukkan hubungan antar variabel.
Korelasi statistik antar variable bisa tinggi bisa rendah. Di bidang pengujian
personil, korelasi lebih dari 0.35 memiliki label “sangat bermanfaat,” korelasi
antara 0.21 hingga 0.35 adalah "kemungkinan bermanfaat," korelasi
antara 0.11 - 0.20 diberi label sebagai "tergantung keadaan,” dan selanjutnya
yang kurang dari 0.11 bermerek “tidak mungkin berguna. Selain konsep koefisien
validitas, konsep statistik lainnya yang diperlukan dalam memahami VG adalah “VG
is a statistical power” Kekuatan yang dimaksud adalah kemampuan suatu studi
untuk menemukan hasil yang signifikan secara statistik. Studi validitas yang
memiliki ukuran sampel besar (mis., 500 subjek) memiliki kekuatan statistik
yang tinggi, dan mereka yang memiliki sampel kecil memiliki kekuatan statistik
yang rendah.
Power statistic inilah yang diteliti oleh Shmiidt
dan Hunter (1977) yang merupakan penelitian konvensional di mana generalisasi
validitas bermula. Schmidt & Hunter meneliti power statistik dari
penelitian-penelitian validitas terpilih dan mempertimbangkan suatu prosedur
untuk menguji hipotesis mengenai kekhususan yang bersifat situasional. Prosedur
baru yang digunakan adalah teknik meta analisis (seperti disampaikan sebelumnya
VG adalah sebuah meta analisis) untuk mengestimasi variansi kesalahan melalui
sejumlah hasil penelitian. Dengan menggunakan kumpulan penelitian terdahulu
serta menggunakan teknik meta analisis.
Terkait manfaat VG, Kane (1999) menyampaikan empat (4)
peran generalisasi dalam validitas, yaitu: (1) koefisien generalisasi
memberikan batas atas pada validitas, (2) generalisasi adalah satu langkah
dalam argumen yang paling interpretatif, dan oleh karena itu, generalisasi
adalah kondisi yang diperlukan untuk interpretasi validitas ini, (3) argumen
interpretatif menentukan estimasi yang tepat untuk generalisasi, dan (4)
generalisasi memberikan pembenaran untuk konten sintaksis label konstruk.
D.
Prosedur Dasar Generalisasi Validitas
Dalam penghitungannya, VG dihitung menggunakan ANOVA.
Prinsip dasar dari model VG adalah pemartisian variansi, yaitu identifikasi dan
pemilahan terhadap variansi dari validitas teramati yang bertanggung jawab
terhadap error sistematik yang berhubungan dengan artifak statistik dan error
dari random sampling. Secara khusus Pearlman, Schmidt, Hunter, Linn &
Dunbar menjelaskan dalam literatur generalisasi validitas bahwa efek sistematik
ini dapat dibaca pada bahasan-bahasan tentang perbedaan antara penelitian-penelitian
dalam hal reliabilitas tes, kriteria reliabilitas, hal Batasan interval, jumlah
dan jenis dari kriteria kontaminasi dan defisiensi, struktur factor dari tes
yang konstruk yang sama, dan perbedaan dalam penelitian-penelitian dalam hal
struktur faktor dari kriteria pengukuran (Schmidt et al., 1993). Dengan demikian
variansi yang tidak terkait dengan ketujuh faktor ini akan mencerminkan variabilitas
dari validitas yang sesungguhnya. Model dasar untuk generalisasi validitas
didasarkan pada suatu struktur persamaan untuk koefisien korelasi teramati
antara prediktor X dan kriteria Y yang dapat dituliskan sebagai berikut:
R = r’ + e
Keterangan: R adalah korelasi teramati, ρ’ adalah
korelasi populasi yang dibatasi, dan e adalah peluang error yang berhubungan
dengan sampling.
Jika dalam hal ini ukuran sampelnya tak terhingga,
maka korelasinya akan sebesar ρ’. Namun dengan ukuran sampel yang aktual (tidak
tak terhingga) maka ada perbedaan antar korelasi teramati (R) yang dihitung
dari data. Korelasi yang dibatasi dihitung dari data. Korelasi yang dibatasi
berbeda dari korelasi populasi yang berhubungan dengan ketidakreliabelan
prediktor, ketidakreliabelan kriteria, dan pembatasan jangkauan. Persamaan
struktural yang lengkap yang digunakan di hampir keseluruhan penelitian
generalisasi validitas dapat ditulis sebagai berikut:
r = abcr + e
Keterangan:
ρ = korelasi populasi
r = korelasi teramati
a = (ryy’)1/2 = akar kuadrat dari reliabilitas
kriteria
b = (xxr’)1/ 2 = akar kuadrat dari reliabilitas
kriteria
c = (u/(1+(u-1) ρ2a2b2))1/ 2 , adalah faktor
pembatasan jangkauan
e = kesalahan sampling
u = rasio dari SD terbatas terhadap SD tak
terbatas dari X.
E.
Aplikasi VG dalam Penilaian Bahasa Inggris
Aplikasi
VG dalam penilaian Bahasa Inggris diteliti oleh Jinyang Huang. Huang (2011: 124-5)
merangkum faktor-faktor yang mempengaruhi ketepatan dan validitas penilaian menulis
Bahasa Inggris khususnya ESL (English as a second Language= Bahasa
Inggris sebagai Bahasa kedua). Faktor tersebut adalah: (1) jenis dan kesulitan
tugas menulis dapat mempengaruhi penilaian menulis dalam ESL; (2) metode rating
(holistic vs analitic) dapat mengubah aplikasi kriteria rating dalam menilai tulisan
siswa, misalkan penilai cenderung menilai unsur kebahasaan dibandingkan isinya
ketika menggunakan rating holistik; (3) kriteria penilaian yang digunakan oleh
penilai adalah sumber utama kekhawatiran tentang akurasi dan validitas
peringkat tulisan ESL; (4) latar belakang dan pengalaman penilai dapat memiliki
dampak penting pada penilianan tulisan ESL; dan (5) pelatihan penilai/rater
juga dapat memengaruhi akurasi penilaian tulisan ESL.
Teori
G memiliki "peran penting dalam semua bentuk penilaian pendidikan,
termasuk penilaian menulis langsung dan penilaian kinerja di bidang lainnya. (Ferrara,
1993, h. 2). Teori G ini adalah metode statistik yang secara bersamaan dapat
mengidentifikasi berbagai sumber varians kesalahan dan memperkirakan dampak
sumber-sumber ini pada akurasi penilaian, mis., keandalan, memungkinkan penyelidik
mempertimbangkan banyak aplikasi suatu instrumen (Shavelson & Webb, 1991). Secara
teknis, teori-G menggunakan analisis varians (ANOVA) untuk membagi variasi
dalam skor berbagai sumber dan istilah interaksinya. Dalam hal penilaian
penulisan, ini membagi varians dalam skor penulisan yang ditugaskan untuk tugas
atau item, penilai / peringkat, kesalahan, dan komponen interaksi. Teori-G memberikan
indikasi paling kuat bahwa penilai memiliki peringkat yang sama dan juga
peringkat sebuah konstruksi umum (Shavelson & Webb, 1991).
Teori G telah semakin banyak
digunakan dalam berbagai konteks penelitian penilaian bahasa kedua, termasuk
penelitian dalam penilaian penulisan bahasa kedua. Penggunaan G-teori, studi
ini telah meneliti efek dari aspek yang berbeda (mis., pemberi rating/
penilaian, tugas menulis, dll.) pada akurasi dan variabilitas skor penulisan.
Untuk contoh, Schoonen (2005) meneliti efek dari penilai dan segi tugas pada
generalisasi skor menulis dan bagaimana efek ini tergantung pada kategori dan
metode penilaian. Temuannya menunjukkan bahwa skor penulisan secara substansial
dipengaruhi oleh hal-hal tersebut dan bukan dari kemahiran menulis. Efek karena
tugas dan penilai dalam tugas memberikan pengaruh besar pada skor akurasi dan
generalisasi. Namun, efek ini tergantung pada peringkat kategori dan metode. Awalnya
dikembangkan sebagai pendekatan yang komprehensif dan kuat untuk menilai
akurasi pengukuran, G-theory juga menyediakan metode untuk memeriksa validitas
konstruk penilaian kinerja (Shavelson & Webb, 1991). Teori G juga dapat mendukung kesimpulan
validitas konstruk melalui pengujian ukuran relatif komponen varians (Kraiger
& Teachout, 1990).
Hasil penelitian Huang (2011) adalah
sebagai berikut. Pertama, penelitian ini menunjukkan bahwa perbedaan variasi
skor memang ada antara ESL (siswa Bahasa Inggris sebagai Bahasa kedua) dan
siswa NE (Native English/penutur asli) ketika skor awal digunakan. Ada efek
besar bagi orang di dalamnya interaksi kelompok-menurut-peringkat bahasa dan
varians karena interaksi orang-per-peringkat adalah secara signifikan (p
<0,05) lebih besar untuk siswa ESL daripada untuk siswa NE di setiap jenjang.
Perbedaan karena untuk interaksi orang-per-peringkat mewakili varian yang tidak
diinginkan. Hasil ini menunjukkan bahwa ada kekurang konsistenan dalam pemberian
rating tulisan siswa ESL. Perbedaan seperti itu seharusnya tidak ada jika penilai
sama-sama mahir dalam mencetak tulisan siswa ESL sebagai tulisan siswa NE.
Kedua, yang diinginkan varians karena objek pengukuran secara signifikan (p
<0,05) lebih kecil untuk siswa ESL daripada untuk siswa NE dalam satu tahun
(2001). Perbedaan dalam hal variasi yang tidak diinginkan antara ESL dan skor
penulisan NE dapat menimbulkan pertanyaan tentang keakuratan dan membangun
validitas penulisan skor diberikan kepada siswa ESL dalam semua tiga tahun jika
skor awal digunakan.
Sub-pertanyaan penelitian kedua dan
keempat bertanya tentang perbedaan dalam akurasi nilai tertulis yang ditugaskan
untuk siswa ESL dan NE dan dampak dari perbedaan-perbedaan ini pada peringkat desain
untuk siswa ESL dibandingkan dengan siswa NE. Ketika skor awal digunakan, siswa
ESL memiliki koefisien G-secara signifikan lebih rendah (p <0,05) daripada
siswa NE dalam semua tiga tahun dan pada kenyataannya mereka hampir tidak bisa
memiliki koefisien G yang sebanding dengan siswa NE.
Sub-pertanyaan penelitian ketiga
bertanya tentang perbedaan validitas konstruk nilai tulisan yang ditugaskan
untuk siswa ESL dan NE. Ketika skor awal digunakan, ada yang signifikan (p
<0,05) validitas kurang konvergen dalam satu tahun (2001) dan validitas
kurang diskriminatif dalam semua tiga tahun dari nilai penulisan yang
ditugaskan untuk siswa ESL daripada siswa NE. Perbedaan hasil ini menunjukkan
adanya bias dalam rating tulisan ESL jika skor awal digunakan. Skor tulisan
kurang valid untuk siswa ESL akan menjadi hasil yang tidak adil dan dapat menyebabkan
konsekuensi lainnya yang tidak diinginkan (Johnson et al., 2000).
Bersama-sama, perbedaan selama tiga
tahun dalam hal akurasi dan validitas konstruk antara skor tulisan siswa ESL
dan NE menimbulkan pertanyaan tentang kewajaran nilai atau skor tulisan awal
yang ditugaskan untuk siswa ESL ini. Jika skor tulisan siswa ESL tidak sama
akurat dan valid sebagai nilai tulisan siswa NE, maka keadilan dapat menjadi
perhatian bagi siswa ESL (Johnson et al., 2000). Perbedaan dalam akurasi dan
validitas mungkin menyarankan kemampuan yang tidak setara untuk digunakan
penilai skala analitik untuk pentulisan siswa ESL dibandingkan dengan tulisan
siswa NE. Namun selanjutnya penelitian akan diperlukan untuk menentukan
penyebab perbedaan-perbedaan ini. Sebagai kesimpulan, penelitian ini memberikan
bukti awal bahwa skor tulisan yang ditugaskan untuk ESL dan NE siswa
menghasilkan perbedaan yang signifikan dalam hal akurasi dan validitas konstruk
ketika skor awal diperhitungkan. Namun, pemeriksaan lebih lanjut diperlukan
untuk menentukan sejauh mana perbedaan ini mempengaruhi keadilan penilaian
keterampilan menulis bahasa Inggris siswa ESL dan untuk menemukan cara untuk
mempromosikan akurasi dan validitas penilaian penulisan ESL.
F.
Penutup
Teori generalisasi memungkinkan seorang penyelidik
untuk mengidentifikasi dan menghitung atau mengukur sumber ketidakkonsistenan
dalam skor yang diamati yang muncul, mungkin muncul lebih dari replikasi
prosedur pengukuran. Secara
teknis, generalisasi validitas (VG) dihitung menggunakan ANOVA. Prinsip dasar
dari model VG adalah pemartisian variansi, yaitu identifikasi dan pemilahan
terhadap variansi dari validitas teramati yang bertanggung jawab terhadap error
sistematik yang berhubungan dengan artifak statistik dan error dari random
sampling. Dalam pembelajaran Bahasa Inggris, telah semakin banyak digunakan
dalam berbagai konteks penelitian penilaian bahasa kedua, termasuk penelitian
dalam penilaian penulisan bahasa kedua.
DAFTAR PUSTAKA
Andi Ulfa Tenri Pada. (2014). Generalisasi validitas dalam penelitian
kuantitatif. Dalam Jurnal Biologi Edukasi Edisi 12, Volume 6 Nomor 1, Juni
2014, hal 39-42.
Biddle,
D.A. & Nooren, P.M. (2006). Validity generalization vs. Title VII: can
employers successfully defend tests without conducting local validation
studies? Dalam Labor Law Journal pp 216-237
Brennan, R.L. (2001). Generalizability Theory. Los Angles:
Springer
Huang, J. (2011). Using generalizability theory to examine the accuracy
and validity of large-scale ESL writing assessment. Assessing Writing 17
(2012) 123–139
Johnson, R. L., Penny, J., & Gordon, B. (2000). The relation between
score resolution methods and interrater reliability: An empirical study of an
analytic rating rubric. Applied Measurement in Education, 13 (2),
121–138.
Kane, M. (1999). The
role of generalizability in validity. Paper presented at the Annual Meeting
of the National Council on Measurement in Education (Montreal, Quebec, Canada, April 19-23, 1999). Psychology, 78, 3-12.
Schmidt,
F.L., dan Hunter, J.E. (1981). Employment testing: Old theories and new
research findings. American Psychologist, 36:1128-1137.
Schmidt, F. L., Law, K., Hunter, J. E., Rothstein, H. R., Pearlman, K.,
& McDaniel, M. (1993). Refinements in validity generalization methods:
Implications for the situational specificity hypothesis. Journal of Applied Psychology,
78(1), 3-12.
Schoonen,
R. (2005). Generalizability of writing scores: An application of structural
equation modeling. Language Testing, 22 (1), 1–30.
Shavelson, R.J. &
Webb, N.M. (1991). Generalizability Theory: a primer. London: Sage
Publications.