Analisa data sangatlah penting dalam riset epidemiologi. Kapasitas fasilitas komputasi yang semakin meningkat, menggerakkan seni keilmuan bidang epidemiology menuju kesamaan arah dengan kemajuan bidang komputasi. Buku ini intinya tentang mempelajari R dengan penekanan pada Epicalc. Para pembaca seharusnya memiliki latar belakang dalam dasar-dasar penggunaan computer. Dengan R, Epicalc dan data set yang disediakan, para pengguna harus mampu untuk mengikuti setiap konsep pembelajaran data manajemen, teori statistika yang terkait dan berlatih analisis data serta membuat grafik dengan baik.
Tentang Penulis
Dr. Zurnila Marli Kesuma, S.Si., M.Si
Website: http://fsd.unsyiah.ac.id/zurnila/
Email: zurnila@unsyiah.ac.id
Order Buku
Penggunaan R pada bab ini difokuskan pada penggunan utama R, meliputi instalasi, bagaimana menggunakan help, sintaks perintah R dan dokumentasi tambahan. Ingat pula bahwa buku ini ditulis untuk pengguna Windows, namun R juga bekerja pada system operasi yang lain. R terdistribusi dibawah bentuk GNU General Public License. Software tersebut secara bebas tersedia untuk penggunaan dan berdistribusi dibawah bentuk license ini. Versi R 3.2.0 dan Epicalc beserta dokumentasinya dapat diunduh dengan mengetikkan perintah berikut pada R console. Hal pertama untuk menginstal R adalah masuk ke website CRAN dan pilih system operasi yang sesuai pada bagian atas layar. Untuk pengguna Windows klik pada link Windows dan ikuti link pada subdirektori base . Dalam halaman ini anda dapat mengunduh file pengaturan untuk Windows yaitu R-2.6.1win32.exe. Klik link tersebut dan tekan tombol “Save”. File set-up R berukuran sekitar 30Mb. Untuk menjalankan instalasi double-click pada file ini dan ikuti instruksi selanjutnya.
Pada bab sebelumnya kita telah memperkenalkan kalkulasi sederhana dan bagaimana menyimpan hasilnya. Pada bab ini, kita akan belajar sekilas mengenai isu yang lebih kompleks. Diluar R, jika anda menguji folder pekerjaan, anda dapat melihat dua file baru yaitu “.Rdata” yang merupakan lingkungan pekerjaan yang disimpan dari sesi terakhir R dan “.Rhistory” yang merekam semua perintah dari sesi R sebelumnya. “.Rdata” adalah file biner dan hanya dikenali oleh program R sedangkan “.Rhistory” adalah file teks dan dapat diedit menggunakan berbagai teks editor seperti Notepad, Crimson Editor atau Tinn-R. Bukalah R dari ikon desktop. Anda akan melihat ini pada baris terakhir: Ini berarti bahwa R telah menyimpan perintah dari sesi R sebelumnya (atau history) dan objek disimpan pada sesi ini. Tekan tanda panah diatas dan anda akan melihat perintah sebelumnya (keduanya benar dan tidak benar). Tekan pada perintah; hasilnya akan muncul jika anda melanjutkan bekerja pada sesi sebelumnya..
Data riil untuk analisis jarang merupakan sebuah vektor. Dalam banyak kasus, data tersebut merupakan dataset yang terdiri dari banyak baris atau catatan dan banyak kolom atau variabel. Dalam R, dataset ini disebut kerangka data (data frames). Sebelum membahas mengenai data frames, mari kita pelajari hal sederhana seperti array, matriks dan tabel. Mendapatkan konsep serta keahlian dalam mengatasi tipe objek seperti ini akan memberi kesempatan pengguna untuk memanipulasi data dengan efektif dan efisien pada masa mendatang. Array secara umum dapat diartikan sebagai sesuatu yang tersusun dengan baik. Dalam matematika dan komputasi, sebuah array terdiri dari nilai nilai yang tersusun dalam baris dan kolom. Sebuah dataset dasarnya merupakan sebuah array. Kebanyakan paket statistik ditangani hanya dengan satu dataset atau array pada saat tertentu. R memiliki kemampuan khusus untuk mengatasi beberapa array dan dataset secara bersamaan. Hal ini karena R merupakan program berorientasi objek. Selain itu, R menginterpretasikan baris dan kolom dalam cara yang sangat sama.
Dalam bab sebelumnya, contoh diberikan pada array dan daftar. Dalam bab ini, frame data akan menjadi fokus utama. Untuk sebagian besar peneliti, hal ini kadang-kadang disebut dataset. Namun, dataset lengkap dapat berisi lebih dari satu frame data. Dimana berisi data nyata yang peneliti harus bekerja dengan sebagian besarnya. Banyak aturan yang digunakan untuk array juga berlaku untuk data frame. Sebagai contoh, struktur utama data frame terdiri dari kolom (atau variabel) dan baris (atau catatan). Aturan untuk mengikat subscripting, kolom atau baris dan pemilihan subset dalam array secara langsung diterapkan pada data frame. Data frame bagimanapun sedikit lebih rumit dari array. Semua kolom dalam array dipaksa untuk menjadi karakter jika hanya satu sel berupa karakter. Sebuah data frame, di sisi lain, dapat memiliki kelas yang berbeda dari kolom. Sebagai contoh, data frame dapat terdiri dari kolom ‘idnumber’, yang merupakan numerik dankolom ‘nama’, yang merupakan karakter.
Di bab sebelumnya, kita telah mempelajari “commands” zap untuk membersihkan “workspace” dan memori, use untuk membaca file data dan codebook, des dan summ untuk menginisialkan eksplorasi kerangka data (data frame), ingat bahwa semua ini adalah Epicalc commands. Fungsi use menempatkan kerangka data kedalam sebuah objek tersembunyi yang bisa dipanggil .data, secara otomatis terlampir pada search path. Di bab ini, kita akan bekerja dengan lebih banyak contoh kerangka data sebaik-baiknya cara untuk mengeksplor variabel individu. Garis pertama setelah command des()menunujukkan label data, yang mendeskripsikan teks untuk dataframe. Biasanya dihasilkan oleh software yang digunakan untuk memasukkan data, seperti Epidata atau Stata. Baris berikutnya menunjukkan nama variabel dan deskripsi dari masing-masing variabel. Untuk variabel ‘code’ berjenis character sedangkan ‘sex’ adalah sebuah faktor. Sedangkan variabel yang lain berjenis integer.
Salah satu tujuan dari studi epidemiologi adalah untuk menggambarkan distribusi status kesehatan penduduk dalam hal waktu, tempat dan orang. Sebagian besar data analisis, lebih berurusan dengan seseorang dari waktu dan tempat. Dalam bab ini, penjelasan akan difokuskan pada perihal waktu. Satuan waktu mencakup abad, tahun, bulan, hari, jam, menit dan detik. Unit yang paling umum yang terlibat langsung dalam penelitian epidemiologi adalah hari. Lokasi kronologis hari adalah tanggal, yang merupakan fungsi serial tahun, bulan dan hari. Ada beberapa contoh umum penggunaan tanggal dalam studi epidemiologi. Tanggal lahir diperlukan untuk perhitungan usia yang akurat. Dalam sebuah investigasi wabah, deskripsi tanggal eksposur dan onset adalah penting untuk perhitungan masa inkubasi. Dalam tindak lanjut penelitian, waktu tindak lanjut biasanya ditandai dengan tanggal kunjungan. Dalam analisis survival, tanggal mulai pengobatan dan menilai hasil adalah unsur yang dibutuhkan untuk menghitung waktu kelangsungan hidup.
Menginfestigasi wabah adalah tugas umum seorang epidemiologis. Bab ini menjelaskan bagaimana data dapat digambarkan secara efektif. Waktu dan tanggal dari tipe data tidak dipersiapkan dengan baik dan harus dimodifikasi lebih lanjut untuk memenuhi kebutuhan analisis deskriptif. Pada tanggal 25 Agustus 1990, petugas kesehatan lokal di Provinsi Buri Supan Thailand melaporkan terjadinya wabah penyakit gastrointestinal akut pada hari olahraga penyandang cacat nasional. Dr Lakkana Thaikruea dan rekan-rekannya melakukan investigasi. Dataset tersebut disebut Outbreak.. Kebanyakan nama variabel telah cukup jelas. Variabel yang dikodekan sebagai 0 = tidak, 1 = ya dan 9 = hilang / tidak diketahui, untuk tiga item makanan yang dikonsumsi oleh peserta: ‘beefcurry’ (daging sapi kari), ‘saltegg’ (telur asin) dan ‘air’. Juga pada menu kue sus, kue sebesar jari yang disi dengan kocokan susu dan dibungkus dengan lapisan gula. Variabel ini mencatat jumlah potongan yang dimakan oleh setiap peserta. Nilai yang hilang diberi kode sebagai berikut: 88 = “dimakan tapi tidak ingat berapa banyak”, sedangkan kode 90 menunjukkan informasi yang benar-benar hilang (tidak diingat). Beberapa peserta mengalami gejala gastrointestinal, seperti: mual, muntah, sakit perut
Langkah selanjutnya dalam menganalisis wabah adalah penyesuaian dengan level resiko. Namun, pertama mari kita memuat data yang disimpan dari bab sebelumnya. Terdapat sejumlah variable yang perlu direcoding. Variable pertama yang di recoding adalah ‘age’. Perintah Epicalc recode digunakan disini. Fungsi ini akan dijelaskan lebih detail pada chapter 10. Variable dengan skema recoding yang sama, dengan 9 data hilang, adalah ‘beefcurry’, ‘saltegg’ dan ‘air’. Ketiga variabel dapat juga diubah menjadi faktor dengan label nilai yang melekat. Untuk ‘eclair’, nilai hilang absolute adalah 90. Ini yang harus direcoding pertama kali, kemudian periksa kembali data frame untuk nilai yang hilang. Keseluruhan variabel kelihatan normal kecuali ‘eclair’ yang masih mengandung nilai 80, ini berarti “ makan tetapi tidak mengingat berapa banyak yang dimakan”. Kita akan menganalisis hubungan tersebut dengan fungsi ‘case’ dengan mempertimbangkan variabel ‘eclair’ sebagai variabel kategori berurut.
Setelah melakukan berbagai penilaian parameter risiko dari peserta dalam wabah di bab terakhir, sekarang kami fokus pada pembauran antara berbagai jenis makanan.
Penilaian risiko dalam bab ini berubah dari aspek kemungkinan penyebab. Langkah berikutnya dalam menganalisis wabah adalah menguraikan tingkatan risiko. Pertama kita akan memuat data yang disimpan dari bab sebelumnya. Odds rasio memiliki makna yang berkaitan dengan probabilitas. Jika p adalah probabilitas, p / (1-p) dikenal sebagai odds. Sebaliknya, probabilitas akan sama dengan odds / (odds +1). Probabilitas menjadi kasus adalah 469/1094 atau 42,9%. Dalam hal ini di mana non-kasus yang dikodekan sebagai 0 dan kasus dikodekan sebagai 1.
Dataset sebelumnya relatif bersih. Mari kita lihat sebuah dataset tidak bersih (uncleaned) yang berasal dari sebuah klinik keluarga berencana di pertengahan tahun 1980. Pembersihan akan memungkinkan Anda untuk belajar fungsi Epicalc untuk pengelolaan data. Perhatikan bahwa semua nama-nama variabel dalam upper case. Untuk mengkonversikan menjadi kasus sederhana, cukup ketik perintah berikut.
Regresi linear melibatkan pemodelan sebuah variabel terikat kontinu dengan satu atau lebih variabel penjelas. Langkah pertama menganalisis data adalah dengan mengeksplorasi data. Dalam hal ini, scatter plot sangat berguna dalam menentukan apakah terdapat hubungan linear antara variabel-variabel.
Dataset yang dikumpulkan selama penelitian biasanya mengandung banyak variabel. Hal ini sering berguna untuk melihat hubungan antara dua variabel dalam tingkat yang berbeda dari sepertiga lainnya, variabel kategorik. Contoh : Tekanan Darah Sistolik. Sebuah survei kecil telah dilakukan pada tekanan darah . Tujuannya adalah untuk melihat efek hipertensi terhadap subjek dengan melakukan penambahan garam meja pada makanan mereka.
Perhatikan bahwa maksimum dari tekanan darah sistolik dan diastoliknya cukup tinggi. Ada 20 nilai yang hilang pada ’saltadd’ (penambahan garam) dan sekarang frekuensi dari variabel kategori ’sex’ (jenis kelamin) dan ’saltadd’ (penambahan garam) diperiksa.
Bab ini kembali menggunakan data keluarga dan mengeksplorasi hubungan antara uang yang dibawa dan usia.Variasi dalam uang biasanya berdistribusi eksponensial. Dengan menguunakan logaritma dapat membantu memperoleh model yang cocok. Sebuah garis regresi adalah garis yang menghubungkan nilai-nilai kesesuaian. Ada sangat sedikit titik dari nilai kesesuaian dalam model. Sebuah frame data baru sekarang dibuat untuk memasukkan variabel ‘umur’ baru mulai dari 6 to 80 (yang merupakan rentang usia subyek kita) dan usia-kuadrat yang sesuai panjang.
Pemodelan linear menggunakan fungsi lm didasarkan pada metode kuadrat terkecil. Konsepnya adalah meminimalkan residual jumlah kuadrat. Pemodelan dari lm ekuivalen dengan analisis varian yang menggunakan fungsi aov. Perbedaannya adalah bahwa yang pertama berfokus pada koefisien variabel bebas sedangkan yang kedua berfokus pada jumlah kuadrat. Pemodelan linear umum (GLM) seperti sebutannya, lebih umum dari model linear. Metode ini berdasarkan fungsi likelihood. Saat likelihood bernilai maksimum maka diperoleh koefisien dan varians (serta standard error) dari variable bebas. Sedangkan pemodelan linear klasik mengasumsikan variable terikat didefinisikan dalam skala kontinu, seperti kekurangan darah pada contoh sebelumnya, (dan asumsi normalitas error dan varians konstan), GLM dapat mengatasi hasil yang berupa proporsi, distribusi Poisson (berhingga) dan lainnya seperti distribusi gamma dan binomial negatif. Kita akan mulai dengan hasil pada skala kontinu pada contoh sebelumnya, kekurangan darah dan infeksi cacing.
Dalam data epidemiologi, kebanyakan keluaran seringkali berupa dalam bentuk biner atau dikotomi. Sebagai contoh, dalam investigasi penyebab terjadi penyakit, status untuk keluaran yaitu penyakit, adalah terkena penyakit vs tidak terserang penyakit. Dalam studi mortalitas, keluarannya berupa hidup vs meninggal. Untuk variabel kontinu seperti tinggi dan berat badan, jumlah representatif tunggal untuk populasi atau sample adalah mean dan median. Untuk data dikotomi, jumlah representatif adalah proporsi atau persentasi dari suatu tipe keluaran. Sebagai contoh, ‘prevalensi’ adalah proporsi populasi dengan penyakit tertentu. Case-fatality adalah proporsi terjadi kematian diantara orang yang terserang penyakit. Istilah lainnya yang berhubungan adalah ‘probability’. Proporsi adalah istilah mudah dan sederhana. Peluang menunjukkan kemungkinan yang lebih teoritis. Dalam kasus variabel dikotomi, proporsi digunakan untuk mengestimasi peluang.
Untuk penghitungan, keluaran sering direpresentasikan dengan 1 dan 0. Prevalensi merupakan mean dari jumlah yang terserang penyakit antara sampel penelitian. Contohnya jika ada 50 sampel, 7 orang terserang penyakit (kode 1), 43 tidak terserang penyakit (kode 0) maka mean sama dengan 7/50 = 0.14, yang merupakan prevalensi. Peluang digunakan berdasarkan kesederhanaannya. Untuk kalkulasi yang kompleks seperti regresi logistik, log(odds) atau logit adalah lebih baik. Jika P merupakan peluang terkena penyakit, 1-P merupakan peluang tidak terkena penyakit. Maka odd samdengan P/(1-P).
Contoh pada bab sebelumnya memiliki kasus dan control yang diperoleh secara terpisah. Dalam studi kasus control berpasangan, ketika sebuah kasus diambil, sebuah kontol atau himpunan control (lebih dai satu orang) dapat diambil untuk dipasangkan dengan kasus dalam beberapa parameter seperti umur dan jenis kelamin dan kondisi lainnya (seperti saudara atau tetangga). Jika deret control dipilih berdasarkan umur dan jenis kelamin yang sesuai – hal ini bertujuan untuk menghindari ketidakseimbangan – maka himpunan data seharusnya dianalisis dalam keadaan tidak berpasangan. Banyak buku yang cukup bagus untuk mengetahui bagaimana menganalisis studi kasus control, khususnya dalam pengaturan berpasangan, dan pembaca dapat membaca referensi pada akhir bab ini. Contoh-contoh pada bab ini ditampilkan hanya untuk demonstrasi semata. Ukuran sampel nya cukup kecil untuk menghasilkan kesimpulan yang solid. Bagaimanapun juga metode ini tetap dapat diaplikasikan untuk studi kasus control berpasangan lainnya.
Regresi logistik sudah sangat dikenal untuk pemodelan keluaran yang biner. Dalam beberapa keadaan, keluarannya dapat memiliki lebih dari dua kategori yang tak beraturan. Dalam bab 15 kita melihat dataset Ectopic, yang berasal dari studi pengujian hipotesis apakah diinduksi aborsi sebelumnya merupakan faktor risiko untuk kehamilan Ectopic saat ini (EP). Hasilnya memiliki dua kelompok kontrol: subyek datang untuk layanan induksi aborsi (IA) dan wanita yang melahirkan bayi (Deli). Kedua kelompok yang digunakan untuk mewakili intra-uterus kehamilan. Hasil dalam penelitian ini memiliki tiga kategori nominal.
Pada bab sebelumnya, semua variabel dimana faktor-faktornya diperlakukan sebagai variabel kategori berurut. Regresi logistik polytomous berhubungan dengan memprediksi hasil (outcomes) yang bersifat kategori tetapi tidak berurut. Dalam banyak keadaan, hasil (outcome) memiliki beberapa cara pengurutan. Menggunakan regresi logistik polytomous untuk situasi tersebut akan menghilangkan kemampuan untuk mendeteksi asosiasi seperti menyalahartikan cara variabel terikat berhubungan dengan variabel penjelas. Bab ini menggunakan kumpulan dari dari sebuah survey terhadap infeksi cacing tambang di wilayah selatan Thailand yang dilakukan pada tahun 1993. Tujuannya adalah untuk mengetahui pengaruh usia dan penggunaan sepatu (‘shoes’) terhadap intensitas infeksi.
Di dalam, suatu kejadian biasanya terjadi dalam jumlah waktu yang sangat kecil. Pada sebarang titik waktu, peluang menghadapi kejadian seperti itu sangat kecil. Daripada peluang, pengukuran difokuskan terhadap kepadatan, yang berarti kejadian ‘dihitung’ selama periode waktu. Sementara waktu adalah dimensi satu, konsep yang sama berlaku terhadap kepadatan jumlah objek yang kecil dalam ruang dua atau tiga dimensi. Saat satu kejadian bebas dari kejadian lain, proses terjadinya adalah acak. Secara matematika, dapat dibuktikan bahwa dalam kondisi ini, kepadatan dalam berbagai satuan waktu yang berubah dengan varians sama dengan kepadatan rata-rata. Saat kemungkinan terjadinya kejadian dipengaruhi oleh beberapa faktor, sebuah model dibutuhkan untuk menjelaskan dan memprediksi kepadatan. Keragaman antara strata yang berbeda dijelaskan oleh faktor-faktor. Dengan setiap distribusi strata adalah acak.
Terdapat banyak sebutan untuk pemodelan multi-level dan semuanya sama serta setiap sebutan memiliki implikasi masing-masing, misalnya pemodelan berhierarki,pemodelan pengaruh campuran, pemodelan dengan pengaruh acakDalam kajian epidemiologi, variable sering memiliki hirarki. Misalkan pada pengukuran tekanan darah setiap individu yang dapat memiliki lebih dari satu pengukuran. Pada kasus ini, individu perorangan berada pada hirarki tertinggi daripada setiap pengukuran. Individu, bagaimanapun, memiliki keluarga, semua anggotanya yang mungkin memberikan beberapa variabel bebas, seperti etnis, tempat tinggal dll. Pada dasarnya keluarga biasanya merupakan bagian dari sebuah desa dan sebagaianya. Jadi hirarki dapat berupa Negara, provinsi, kabupaten, desa, keluarga dan pengukuran. Beberapa variabel bebas akan berada pada tingkat pengukuran individu, seperti waktu pengukuran. Beberapa variabel dapat merupakan orde hirarki tertinggi, seperti jenis kelamin dan umur (individu), etnis (keluarga) dan jarak dari ibukota (desa). Variabel independen pada tingkat yang berbeda dari hirarki tidak boleh diperlakukan dengan cara yang sama. Untuk alas an ini pemodelan multi-level juga disebut pemodelan berhirarki.
Dalam berbagai aspek, pemodelan biasanya berguna untuk menjelaskan hubungan dari variabel-variabel secara informatif dan efektif. Dalam pemodelan sederhana, dimana jumlah kelompoknya tidak besar, katakan m kelompok etnis, jumlah parameter yang digunakan untuk menjelaskan pengaruh ‘ethnic’ adalah m-1 karena satu kelompok yang diabaikan digunakan sebagai acuan kelompok. Jika ukuran sampel besar dan m kecil maka jumlah parameter yang digunakan tidak terlalu besar. Dengan kata lain, jika ukuran sampel kecil tetapi jumlah kelompoknya besar, misalkan 50 subjek dengan beberapa kali pengukuran tekanan darah, pengelompokan variabel akan memiliki terlalu bnyak level untuk dimasukkan ke dalam model.
Dalam studi kohort, seseorang ditindaklanjuti dari waktu permulaan hingga akhir penelitian atau hingga waktu tindak lanjut telah telah diakhiri oleh outcome, mana yang lebih dahulu. Durasi event-free merupakan outcome yang penting. Untuk kejadian yang tidak diinginkan, outcome yang diharapkan merupakan durasi event-free yang lebih lama. Untuk subjek dengan kejadian yang terjadi sebelum akhir penelitian, total waktu durasinya diketahui. Untuk subjek yang dilakukan dengan waktu berakhir tanpa kejadian apapun, status terakhir disebut ‘censored’ karena durasi waktu kejadian sebenarnya tidak diketahui atau ‘censored’ oleh penelitian. Meskipun pada akhirnya variabel dependen untuk setiap sampel atau subjek terdiri dari ‘time’ dan ‘status’. Secara matematika, status 1 jika terjadi peristiwa dan 0 untuk lainnya.
Library survival berisi semua fungsi yang diperlukan untuk menganalisis tipe data survival. Untuk menganalisis data ini, kita perlu membuat sebuah objek dari kelas Surv, yang mengombinasikan informasi data dan status pada objek tunggal.variabel status harus numerik atau logical. Jika numerik, ada dua pilihan. Nilai harus berupa 0=censored dan 1=event, atau 1=censored dan 2=event. Jika logical, FALSE=censored dan TRUE=event. Dalam himpunan data Marryage, ‘marital’ merupakan faktor dan harus dikonversikan kesalah satu bentuk yang disebutkan diatas. Kita akan memilih bentuk logical, tetapi secara acak.
Sama halnya dengan tipe variabel respon lainnya, variabel ketahanan dapat diuji menggunakan lebih dari satu respon menggunakan pemodelan regresi. Terdapat banyak pilihan ‘parametric regression’ untuk objek ketahanan. Masing-masing memiliki asumsi spesifik mengenai distribusi peluang ketahanan selama pengamatan (dinamakan fungsi hazard). Dalam studi epidemiologi, regresi yang paling sering digunakan untuk analisis ketahanan adalah regresi Cox, yang tidak memiliki asumsi mengenai fungsi hazard.
Sementara model regresi parametrik mengikuti prediksi peluang ketahanan pada setiap titik waktu, regresi Cox fokus pada pengujian perbedaan peluang ketahanan setiap kelompok dengan penyesuaian faktor. Asumsi yang terpenting ialah memenuhi ‘proportional hazards’.
Secara matematika, laju hazard h=h(t) merupakan sebuah fungsi yang bergantung pada n kovariat bebas X, dimana X menotasikan vektor X1, X2, X3 … , Xn dimana Xi, i = 1, 2, 3,…n, dan t waktu. Fungsi hazard dapat juga ditulis sebagai h(t, X). Ini menyatakan bahwa penjumlahan pengaruh dari satu kelompok terhadap kelompok lain merupakan proporsi konstan.
Meskipun studi tentang sikap adalah di bidang ilmu-ilmu sosial, ahli epidemiologi harus memiliki beberapa ide tentang metode dasar analisis ini jenis data. Sebuah kuesioner pada sikap biasanya berisi pertanyaan dimana responden menentukan tingkat kesepakatan untuk pernyataan. Tingkat ini sering disebut sebagai skala Likert. Biasanya skala lima-titik digunakan, namun tujuh dan bahkan sembilan poin skala juga dapat digunakan. Meskipun sebagian besar digunakan di bidang psikometri, jenis skala penilaian kadang-kadang digunakan dalam studi epidemiologi seperti yang melibatkan kualitas hidup. Epicalc menawarkan fungsi tableStack untuk menampilkan distribusi dari nilai dari beberapa variabel yang memiliki skala penilaian yang sama. Hal ini juga mendeteksi bagian-bagian yang perlu dibalik sebelum skor item/bagian dijumlahkan atau dirata-ratakan. Dataset Sikap berasal dari sebuah survei tentang sikap terkait dengan layanan antara staf rumah sakit.
Perhitungan ukuran sampel sangat penting dalam studi epidemiologi. Dalam kebanyakan survey, ukuran populasinya sangat besar, sebagai akibatnya biaya untuk mengoleksi data dari semua subjek akan sangat tinggi. Dalam studi klinikal, mengambil terlalu banyak subjek dalam sebuah penelitian tidak hanya menimbulkan permasalahan dalam hal manajemen dan finansial tetapi juga dapat menjadi permasalahan etik. Jika sebuah kesimpulan dapat diperoleh dari ukuran sampel kecil, menggunakan lebih banyak subjek dapat menimbulkan resiko pada kelompok subjek yang perlakuannya rendah. Di sisi lain, survey dengan ukuran sampel yang terlalu kecil tidak akan mampu mendeteksi pengaruh yang siginifikan secara statistik.
Dalam model interaktif, jenis analisis member perintah secara langsung ke dalam console dan, jika tidak terdapat error, akan diperoleh output spesifik untuk perintah tersebut. Hal ini berguna untuk pengguna pemula. Mengetik dan membaca perintah dari console merupakan proses pembelajaran natural. Fase pembelajaran dalam pengetikan perintah perintah ini terkadang sering mengalami kesalahan, baik secara sintaks atau lainnya. Kesalahan yang paling umum terjadi adalah erros sintaks atau penyalahgunaan aturan yang ditetapkan oleh software. Contohnya termasuk tanda kurung yang tidak sama, tanda kutip tidak seimbang dan kelalaian pembatas (seperti koma). Kesalahan ini sangat mudah untuk dikoreksi. Pengguna dapat dengan mudah menekan tanda panah atas untuk mengambil perintah sebelumnya. Pada tahap awal analisis, analist perlu berkenalan dengan dataset dan variabel. Tahap ini sering disebut ‘Exploratory data analysis’, yang dilakukan secara interaktif.
Data yang disajikan dalam paket Epicalc dan digunakan dalam buku ini relatif kecil, baik dari segi jumlah unsur maupun jumlah variabel. Dalam kehidupan sehari-hari, seorang analis data sering menangani lebih dari 50 variabel dan ribuan elemen data. Dalam proses analisis ini dibutuhkan memori komputasi dalam jumlah yang sangat besar, CPU yang bekerja cepat, hard disk yang besar, serta strategi yang efisien dalam menangani data. Tanpa persyaratan tersebut, proses analisa data dapat memakan waktu yang terlalu lama atau bahkan tidak mungkin untuk dilakukan. R dapat menangani objek yang banyak dalam satu waktu. Jika jumlah memory yang digunakan terbatas, objek-objek yang tidak penting dapat dihapus dari lingkungan kerja dan dihilangkan dari seluruh kerangka data yang tidak penting. Oleh karena itu, untuk memulai sebuah program sebaiknya gunakan perintah berikut.
Pembaca buku ini mungkin bertanya-tanya mengapa uji statistik sederhana seperti uji-t, uji chi-squared dan uji-uji non-parametrik jarang disebutkan atau dibahas secara detil di sini. Uji-uji tersebut sering digunakan dalam perbandingan awal kelompok-kelompok, yang ditampilkan sebagai tabel pertama dalam kebanyakan naskah epidemiologis. Semua uji statistik ini dapat dihasilkan oleh satu perintah Epicalc tunggal, tableStack. Pada bab 23, perintah ini digunakan secara luas yang paralel dengan perintah alpha dan alphaBest untuk menampilkan distribusi dari setiap variabel. Tujuan lainnya yang tidak kalah pentingnya ialah untuk menghitung rata-rata dan nilai total di mana elemen-elemennya dibalik secara benar ketika dibutuhkan. Pada bab ini, fungsi yang sama juga digunakan secara luas tetapi argumen ‘by’ dimasukkan. Hasilnya dapat langsung dimasukkan ke dalam naskah.