Laily English: GENERALISASI VALIDITAS

Generalisasi Validitas

oleh

Laily Amin Fajariyah

A. Pendahuluan

Penelitian yang baik adalah suatu penelitian yang mampu memberikan informasi yang valid/sahih atau memiliki ketepatan data antara data yang telah dikumpulkan dengan data sesungguhnya yang ada di lapangan. Peneliti akan berupaya besar untuk memenuhi ketepatan tersebut melalui prosedur pengukuran yang cermat. Namun, terkadang informasi yang diperoleh melalui prosedur pengukuran apapun bisa keliru. Kekeliruan tersebut bergantung pada saat kondisi pengukuran, misalnya dikarenakan alat ukur yang digunakan, pengukur, kondisi pencahayaan, dan lain sebagainya. Meskipun semua pengukuran bisa keliru sampai batas tertentu, namun para ilmuwan terus mencari cara untuk meningkatkan ketepatan atau presisinya (Brennan, 2001: 1).

Cara yang dilakukan oleh peneliti tersebut antara lain adalah dengan mereka sering melakukan pengukuran pada subset yang telah ditentukan. Selain itu, untuk meningkakan presisi pengukuran tersebut mereka memperbaiki satu atau lebih kondisi pengukuran, sebagai contoh menggunakan alat ukut yang lebih khusus. Namun, penggunaan alat ukur spesifik ini akan memberikan batasan di mana penelitian tersebut akan digeneralisasi. Istilahnya, memperbaiki pengukuran memang akan mengurangi kesalahan dan meningkatkan ketepatan pengukuran, namun akan menyempitkan interpretasi pengukuran.

Hal ini membuktikan bahwa kesalahan atau kekeliruan yang kita anggap sebelumnya ada bukanlah suatu kesalahan namun merupakan pendefinisian. Sehingga menganggap suatu “kekeliruan” merupakan kesalahan permanen pengukuran adalah sesuatu hal yang berbeda dengan menanggapi “kekeliruan” tersebut dan kemudian menghitung ‘error’ yang ada dan menentukan kondisi pengukuran mana yang berkontribusi padanya. Untuk melakukannya, perlu menetukan apa yang dimaksud dengan pengukuran “ideal” seperti menentukan kondisi yang tepat untuk mengeneralisasi penelitian dan kondisi mana skor yang diamati diperoleh (Brennan, 2001: 2). Dari kasus inilah muncul istilah generalisabiliti atau disebut generalisasi.

Brennan (2001: 2) mengatakan: “Generalizability theory enables an investigator to identify and quantify the sources of inconsistencies in observed scores that arise, or could arise, over replications of a measurement procedure.!” Teori generalisasi memungkinkan seorang penyelidik untuk mengidentifikasi dan menghitung atau mengukur sumber ketidakkonsistenan dalam skor yang diamati yang muncul, mungkin muncul lebih dari replikasi prosedur pengukuran. Selanjutnya makalah ini akan membahas tentang generalisasi khususnya generalisasi validitas, terkait pengertiannya, prosedurnya, dan contohnya dalam penilaian Bahasa Inggris.

B. Teori Generalisasi (Teori G)

Sebelum kita membahas lebih dalam tentang generalisasi validitas, akan kita pelajari dulu teori generalisasi. Dalam buku yang pertaman tentang “Generalizability Theory” yang ditulis oleh Richard J. Shavelson dan Noreen M. Web (Shavelson & Webb, 1991:1) disampaikan pengertian generalisabilitas sebagai berikut. “Generalizability is a statistical theory about the dependability of behavioral measurement.” Dari kalimat ini, sebagai pendahuluan kita mengetahui bahwa generalisasi adalah teori tentang keandalan pada pengukuran tingkah laku. Keandalan yang dimaksudkan adalah ketepatan generalisasi dari skor yang diamati dari suatu pengukuran terhadap rata-rata skor yang akan diterima seseorang dalam berbagai kondisi yang ada. Sehingga dapat disimpulkan bahwa keandalan adalah suatu asumsi atas pengetahuan, sikap, keterampilan dan atribut pengukuran lainnya dalam kondisi yang stabil. Sehingga, kita asumsikan jika ada perbedaan skor seseorang dalam pengukuran yang berbeda waktunya adalah suatu kesalahan pengukuran dan bukan merupakan perubahan sistemik karena kematangan belajar (Shavelson & Webb, 1991:1).

Teori klasik hanya mampu mempreduksi satu sumber kesalahan saja, misalkan variasi skor dalam hal waktu pelaksanaan pengukuran dengan penggunaan reliabilitas tes-retes. Sedangkan, G theory, atau teori generalisasi mampu menganalisa berbagai macam eror/kesalahan yang terjadi dalam suatu pengukuran dan dianalisa dalam satu waktu. Teori generalisasi menawarkan kerangka kerja konseptual yang luas dan seperangkat prosedur statistik yang kuat untuk menangani berbagai pengukuran masalah. Teori ini bisa dipandang sebagai perpanjangan dari teori klasik melalui aplikasi prosedur analisis varians tertentu (ANOVA) untuk masalah pengukuran. Dengan kata lain, Teori G mampu membantu pengambil keputusan untuk menentukan berapa kesempatan, bentuk tes dan administrator diperlukan untuk menghasilkan skor yang andal. Dalam prosesnya, teori G mampu menyajikan koefisien yang menunjukkan keandalan, yang disebut dengan koefisien generalisasi (Shavelson & Webb, 1991:12; Brennan, 2001:2).

Kerangka kerja teori-G menggabungkan dua tahap yang sesuai dengan dua tahap desain tes: (a) studi generalisasi (G-), yang menghasilkan informasi yang dapat digunakan untuk merancang tes dan (b) sebuah studi decision (D-), yang dapat digunakan untuk membuat keputusan tentang individu atau kelompok individu (misalnya, sekolah). Studi-G digunakan untuk mengevaluasi kepentingan relatif dari berbagai sumber pengukuran kesalahan dan selidiki dampak berbagai perubahan dalam desain pengukuran (mis., nomor yang berbeda tugas atau penilai / peringkat). Studi-D menggabungkan desain terbaik untuk memungkinkan interpretasi skor keakuratan dalam kerangka referensi relatif atau yang direferensikan norma atau dalam referensi absolut atau kriteria (Brennan, 2001).

C. Generalisasi Validitas/Validity Generalizability (VG)

Validitas merupakan hal utama dalam mengevaluasi kelayakan interpretasi skor tes dan memberikan kerangka kerja umum untuk mengevaluasi pengukuran. Selain itu, dalam kaitannya penggunaan suatu hasil penelitian untuk diberlakukan ke kelompok di luar penelitian, maka persoalan lain yang disebut validitas ekternal akan muncul. Sehingga meskipun penelitian tersebut telah memiliki validitas ekternal, namun tingkat generalisasinya tetap menjadi suatu pertimbangan (Andi Ulfa Tenri Pada, 2014: 1). Dari kasus generalisi dan validitas inilah maka muncul kajian validity generalizability (biasa disingkat VG yang akan diadaptasi dalam makalah ini, meskipun dalam Bahasa Indonesianya adalah generalisasi validitas).

Biddle and Nooren (2006: 220) memberikan gambaran yang relatif jelas tentang generalisasi validitas/ validity generalizability (VG) ini. VG disebut juga meta analisis yang dilakukan di bidang pengukuran. Meta analisis dalam VG ini adalah suatu teknik statistik yang digunakan untuk mengkombinasikan hasil dari beberapa studi penelitian yang membentuk teori umum tentang hubungan beberapa variabel (misalnya tes dan kinerja) dalam situasi yang berbeda-beda. Pentingnya pelaksanaan VG dalam suatu penelitian adalah untuk mengevaluasi keefektivan atau validitas tes tertentu dalam mendeskripsikan hasilnya dalam lingkup yang luas.

Untuk memahami VG ini, beberapa dasar statistik perlu dipelajari. Bagian yang tak terpisahkan dari VG adalah koefisien validitas yaitu pengukuran secara statistik yang menunjukkan hubungan antar variabel. Korelasi statistik antar variable bisa tinggi bisa rendah. Di bidang pengujian personil, korelasi lebih dari 0.35 memiliki label “sangat bermanfaat,” korelasi antara 0.21 hingga 0.35 adalah "kemungkinan bermanfaat," korelasi antara 0.11 - 0.20 diberi label sebagai "tergantung keadaan,” dan selanjutnya yang kurang dari 0.11 bermerek “tidak mungkin berguna. Selain konsep koefisien validitas, konsep statistik lainnya yang diperlukan dalam memahami VG adalah “VG is a statistical power” Kekuatan yang dimaksud adalah kemampuan suatu studi untuk menemukan hasil yang signifikan secara statistik. Studi validitas yang memiliki ukuran sampel besar (mis., 500 subjek) memiliki kekuatan statistik yang tinggi, dan mereka yang memiliki sampel kecil memiliki kekuatan statistik yang rendah.

Power statistic inilah yang diteliti oleh Shmiidt dan Hunter (1977) yang merupakan penelitian konvensional di mana generalisasi validitas bermula. Schmidt & Hunter meneliti power statistik dari penelitian-penelitian validitas terpilih dan mempertimbangkan suatu prosedur untuk menguji hipotesis mengenai kekhususan yang bersifat situasional. Prosedur baru yang digunakan adalah teknik meta analisis (seperti disampaikan sebelumnya VG adalah sebuah meta analisis) untuk mengestimasi variansi kesalahan melalui sejumlah hasil penelitian. Dengan menggunakan kumpulan penelitian terdahulu serta menggunakan teknik meta analisis.

Terkait manfaat VG, Kane (1999) menyampaikan empat (4) peran generalisasi dalam validitas, yaitu: (1) koefisien generalisasi memberikan batas atas pada validitas, (2) generalisasi adalah satu langkah dalam argumen yang paling interpretatif, dan oleh karena itu, generalisasi adalah kondisi yang diperlukan untuk interpretasi validitas ini, (3) argumen interpretatif menentukan estimasi yang tepat untuk generalisasi, dan (4) generalisasi memberikan pembenaran untuk konten sintaksis label konstruk.

D. Prosedur Dasar Generalisasi Validitas

Dalam penghitungannya, VG dihitung menggunakan ANOVA. Prinsip dasar dari model VG adalah pemartisian variansi, yaitu identifikasi dan pemilahan terhadap variansi dari validitas teramati yang bertanggung jawab terhadap error sistematik yang berhubungan dengan artifak statistik dan error dari random sampling. Secara khusus Pearlman, Schmidt, Hunter, Linn & Dunbar menjelaskan dalam literatur generalisasi validitas bahwa efek sistematik ini dapat dibaca pada bahasan-bahasan tentang perbedaan antara penelitian-penelitian dalam hal reliabilitas tes, kriteria reliabilitas, hal Batasan interval, jumlah dan jenis dari kriteria kontaminasi dan defisiensi, struktur factor dari tes yang konstruk yang sama, dan perbedaan dalam penelitian-penelitian dalam hal struktur faktor dari kriteria pengukuran (Schmidt et al., 1993). Dengan demikian variansi yang tidak terkait dengan ketujuh faktor ini akan mencerminkan variabilitas dari validitas yang sesungguhnya. Model dasar untuk generalisasi validitas didasarkan pada suatu struktur persamaan untuk koefisien korelasi teramati antara prediktor X dan kriteria Y yang dapat dituliskan sebagai berikut:

R = r’ + e

Keterangan: R adalah korelasi teramati, ρ’ adalah korelasi populasi yang dibatasi, dan e adalah peluang error yang berhubungan dengan sampling.

Jika dalam hal ini ukuran sampelnya tak terhingga, maka korelasinya akan sebesar ρ’. Namun dengan ukuran sampel yang aktual (tidak tak terhingga) maka ada perbedaan antar korelasi teramati (R) yang dihitung dari data. Korelasi yang dibatasi dihitung dari data. Korelasi yang dibatasi berbeda dari korelasi populasi yang berhubungan dengan ketidakreliabelan prediktor, ketidakreliabelan kriteria, dan pembatasan jangkauan. Persamaan struktural yang lengkap yang digunakan di hampir keseluruhan penelitian generalisasi validitas dapat ditulis sebagai berikut:

r = abcr + e

Keterangan:

ρ = korelasi populasi

r = korelasi teramati

a = (ryy’)1/2 = akar kuadrat dari reliabilitas kriteria

b = (xxr’)1/ 2 = akar kuadrat dari reliabilitas kriteria

c = (u/(1+(u-1) ρ2a2b2))1/ 2 , adalah faktor pembatasan jangkauan

e = kesalahan sampling

u = rasio dari SD terbatas terhadap SD tak terbatas dari X.

E. Aplikasi VG dalam Penilaian Bahasa Inggris

Aplikasi VG dalam penilaian Bahasa Inggris diteliti oleh Jinyang Huang. Huang (2011: 124-5) merangkum faktor-faktor yang mempengaruhi ketepatan dan validitas penilaian menulis Bahasa Inggris khususnya ESL (English as a second Language= Bahasa Inggris sebagai Bahasa kedua). Faktor tersebut adalah: (1) jenis dan kesulitan tugas menulis dapat mempengaruhi penilaian menulis dalam ESL; (2) metode rating (holistic vs analitic) dapat mengubah aplikasi kriteria rating dalam menilai tulisan siswa, misalkan penilai cenderung menilai unsur kebahasaan dibandingkan isinya ketika menggunakan rating holistik; (3) kriteria penilaian yang digunakan oleh penilai adalah sumber utama kekhawatiran tentang akurasi dan validitas peringkat tulisan ESL; (4) latar belakang dan pengalaman penilai dapat memiliki dampak penting pada penilianan tulisan ESL; dan (5) pelatihan penilai/rater juga dapat memengaruhi akurasi penilaian tulisan ESL.

Teori G memiliki "peran penting dalam semua bentuk penilaian pendidikan, termasuk penilaian menulis langsung dan penilaian kinerja di bidang lainnya. (Ferrara, 1993, h. 2). Teori G ini adalah metode statistik yang secara bersamaan dapat mengidentifikasi berbagai sumber varians kesalahan dan memperkirakan dampak sumber-sumber ini pada akurasi penilaian, mis., keandalan, memungkinkan penyelidik mempertimbangkan banyak aplikasi suatu instrumen (Shavelson & Webb, 1991). Secara teknis, teori-G menggunakan analisis varians (ANOVA) untuk membagi variasi dalam skor berbagai sumber dan istilah interaksinya. Dalam hal penilaian penulisan, ini membagi varians dalam skor penulisan yang ditugaskan untuk tugas atau item, penilai / peringkat, kesalahan, dan komponen interaksi. Teori-G memberikan indikasi paling kuat bahwa penilai memiliki peringkat yang sama dan juga peringkat sebuah konstruksi umum (Shavelson & Webb, 1991).

Teori G telah semakin banyak digunakan dalam berbagai konteks penelitian penilaian bahasa kedua, termasuk penelitian dalam penilaian penulisan bahasa kedua. Penggunaan G-teori, studi ini telah meneliti efek dari aspek yang berbeda (mis., pemberi rating/ penilaian, tugas menulis, dll.) pada akurasi dan variabilitas skor penulisan. Untuk contoh, Schoonen (2005) meneliti efek dari penilai dan segi tugas pada generalisasi skor menulis dan bagaimana efek ini tergantung pada kategori dan metode penilaian. Temuannya menunjukkan bahwa skor penulisan secara substansial dipengaruhi oleh hal-hal tersebut dan bukan dari kemahiran menulis. Efek karena tugas dan penilai dalam tugas memberikan pengaruh besar pada skor akurasi dan generalisasi. Namun, efek ini tergantung pada peringkat kategori dan metode. Awalnya dikembangkan sebagai pendekatan yang komprehensif dan kuat untuk menilai akurasi pengukuran, G-theory juga menyediakan metode untuk memeriksa validitas konstruk penilaian kinerja (Shavelson & Webb, 1991). Teori G juga dapat mendukung kesimpulan validitas konstruk melalui pengujian ukuran relatif komponen varians (Kraiger & Teachout, 1990).

Hasil penelitian Huang (2011) adalah sebagai berikut. Pertama, penelitian ini menunjukkan bahwa perbedaan variasi skor memang ada antara ESL (siswa Bahasa Inggris sebagai Bahasa kedua) dan siswa NE (Native English/penutur asli) ketika skor awal digunakan. Ada efek besar bagi orang di dalamnya interaksi kelompok-menurut-peringkat bahasa dan varians karena interaksi orang-per-peringkat adalah secara signifikan (p <0,05) lebih besar untuk siswa ESL daripada untuk siswa NE di setiap jenjang. Perbedaan karena untuk interaksi orang-per-peringkat mewakili varian yang tidak diinginkan. Hasil ini menunjukkan bahwa ada kekurang konsistenan dalam pemberian rating tulisan siswa ESL. Perbedaan seperti itu seharusnya tidak ada jika penilai sama-sama mahir dalam mencetak tulisan siswa ESL sebagai tulisan siswa NE. Kedua, yang diinginkan varians karena objek pengukuran secara signifikan (p <0,05) lebih kecil untuk siswa ESL daripada untuk siswa NE dalam satu tahun (2001). Perbedaan dalam hal variasi yang tidak diinginkan antara ESL dan skor penulisan NE dapat menimbulkan pertanyaan tentang keakuratan dan membangun validitas penulisan skor diberikan kepada siswa ESL dalam semua tiga tahun jika skor awal digunakan.

Sub-pertanyaan penelitian kedua dan keempat bertanya tentang perbedaan dalam akurasi nilai tertulis yang ditugaskan untuk siswa ESL dan NE dan dampak dari perbedaan-perbedaan ini pada peringkat desain untuk siswa ESL dibandingkan dengan siswa NE. Ketika skor awal digunakan, siswa ESL memiliki koefisien G-secara signifikan lebih rendah (p <0,05) daripada siswa NE dalam semua tiga tahun dan pada kenyataannya mereka hampir tidak bisa memiliki koefisien G yang sebanding dengan siswa NE.

Sub-pertanyaan penelitian ketiga bertanya tentang perbedaan validitas konstruk nilai tulisan yang ditugaskan untuk siswa ESL dan NE. Ketika skor awal digunakan, ada yang signifikan (p <0,05) validitas kurang konvergen dalam satu tahun (2001) dan validitas kurang diskriminatif dalam semua tiga tahun dari nilai penulisan yang ditugaskan untuk siswa ESL daripada siswa NE. Perbedaan hasil ini menunjukkan adanya bias dalam rating tulisan ESL jika skor awal digunakan. Skor tulisan kurang valid untuk siswa ESL akan menjadi hasil yang tidak adil dan dapat menyebabkan konsekuensi lainnya yang tidak diinginkan (Johnson et al., 2000).

Bersama-sama, perbedaan selama tiga tahun dalam hal akurasi dan validitas konstruk antara skor tulisan siswa ESL dan NE menimbulkan pertanyaan tentang kewajaran nilai atau skor tulisan awal yang ditugaskan untuk siswa ESL ini. Jika skor tulisan siswa ESL tidak sama akurat dan valid sebagai nilai tulisan siswa NE, maka keadilan dapat menjadi perhatian bagi siswa ESL (Johnson et al., 2000). Perbedaan dalam akurasi dan validitas mungkin menyarankan kemampuan yang tidak setara untuk digunakan penilai skala analitik untuk pentulisan siswa ESL dibandingkan dengan tulisan siswa NE. Namun selanjutnya penelitian akan diperlukan untuk menentukan penyebab perbedaan-perbedaan ini. Sebagai kesimpulan, penelitian ini memberikan bukti awal bahwa skor tulisan yang ditugaskan untuk ESL dan NE siswa menghasilkan perbedaan yang signifikan dalam hal akurasi dan validitas konstruk ketika skor awal diperhitungkan. Namun, pemeriksaan lebih lanjut diperlukan untuk menentukan sejauh mana perbedaan ini mempengaruhi keadilan penilaian keterampilan menulis bahasa Inggris siswa ESL dan untuk menemukan cara untuk mempromosikan akurasi dan validitas penilaian penulisan ESL.

F. Penutup

Teori generalisasi memungkinkan seorang penyelidik untuk mengidentifikasi dan menghitung atau mengukur sumber ketidakkonsistenan dalam skor yang diamati yang muncul, mungkin muncul lebih dari replikasi prosedur pengukuran. Secara teknis, generalisasi validitas (VG) dihitung menggunakan ANOVA. Prinsip dasar dari model VG adalah pemartisian variansi, yaitu identifikasi dan pemilahan terhadap variansi dari validitas teramati yang bertanggung jawab terhadap error sistematik yang berhubungan dengan artifak statistik dan error dari random sampling. Dalam pembelajaran Bahasa Inggris, telah semakin banyak digunakan dalam berbagai konteks penelitian penilaian bahasa kedua, termasuk penelitian dalam penilaian penulisan bahasa kedua.

DAFTAR PUSTAKA

Andi Ulfa Tenri Pada. (2014). Generalisasi validitas dalam penelitian kuantitatif. Dalam Jurnal Biologi Edukasi Edisi 12, Volume 6 Nomor 1, Juni 2014, hal 39-42.

Biddle, D.A. & Nooren, P.M. (2006). Validity generalization vs. Title VII: can employers successfully defend tests without conducting local validation studies? Dalam Labor Law Journal pp 216-237

Brennan, R.L. (2001). Generalizability Theory. Los Angles: Springer

Huang, J. (2011). Using generalizability theory to examine the accuracy and validity of large-scale ESL writing assessment. Assessing Writing 17 (2012) 123–139

Johnson, R. L., Penny, J., & Gordon, B. (2000). The relation between score resolution methods and interrater reliability: An empirical study of an analytic rating rubric. Applied Measurement in Education, 13 (2), 121–138.

Kane, M. (1999). The role of generalizability in validity. Paper presented at the Annual Meeting of the National Council on Measurement in Education (Montreal, Quebec, Canada, April 19-23, 1999). Psychology, 78, 3-12.

Schmidt, F.L., dan Hunter, J.E. (1981). Employment testing: Old theories and new research findings. American Psychologist, 36:1128-1137.

Schmidt, F. L., Law, K., Hunter, J. E., Rothstein, H. R., Pearlman, K., & McDaniel, M. (1993). Refinements in validity generalization methods: Implications for the situational specificity hypothesis. Journal of Applied Psychology, 78(1), 3-12.

Schoonen, R. (2005). Generalizability of writing scores: An application of structural equation modeling. Language Testing, 22 (1), 1–30.

Shavelson, R.J. & Webb, N.M. (1991). Generalizability Theory: a primer. London: Sage Publications.

Labels

Friday, January 31, 2020

GENERALISASI VALIDITAS

2 comments:

Perjuangan 5 Besar: Calon Duta Teknologi DIY 2024