Akurasi prediksi pada domain cuaca dan kualitas udara (AQI) harus diukur secara sistematis agar model, sensor, dan alur pemrosesan data benar-benar bermanfaat bagi pengambil keputusan. Artikel ini memaparkan kerangka evaluasi yang ringkas namun ketat untuk keluaran kontinu—temperatur, PM2.5, kecepatan angin, maupun indeks AQI—berbasis tiga metrik pokok: Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), dan Symmetric Mean Absolute Percentage Error (SMAPE). Setelah mendefinisikan metrik, kami membahas kesesuaian per variabel, desain evaluasi yang benar untuk deret waktu, penanganan fenomena khusus seperti nilai nol dan variabel bersifat sirkular, serta praktik pelaporan yang dapat diaudit. Di bagian akhir, kami mengusulkan protokol yang dapat langsung diadopsi untuk produk Satu Cuaca.
Dalam layanan operasional, akurasi bukan sekadar angka tunggal, melainkan gambaran menyeluruh tentang kinerja model pada beberapa horizon waktu, rezim musim, dan lokasi. Evaluasi yang layak publik sebaiknya menjawab tiga pertanyaan: seberapa besar kesalahan rata-rata, seberapa sering model melakukan kesalahan besar pada kondisi ekstrem, dan apakah perbaikan yang diklaim signifikan dibanding garis dasar sederhana. Dengan kerangka ini, MAE, RMSE, dan SMAPE menjadi pasangan metrik yang saling melengkapi.
Misalkan [math]y_i[/math] observasi dan [math]\hat{y}_i[/math] prediksi untuk [math]i=1,\ldots,n[/math]. MAE didefinisikan sebagai
yang memiliki satuan yang sama dengan target ([math]{}^\circ\mathrm{C}[/math], [math]\mu\text{g}/\text{m}^3[/math] atau unit indeks AQI) dan mudah ditafsirkan sebagai “rata-rata meleset sekian unit”. RMSE menimbang kesalahan besar lebih berat melalui kuadrat,
sehingga cocok untuk kasus ketika puncak kesalahan—misal episode polusi berat atau hujan lebat—berbiaya tinggi. SMAPE mengubah kesalahan absolut menjadi persentase simetris,
yang berguna untuk membandingkan performa lintas lokasi dan skala; pada praktiknya penyebut kerap diberi [math]\max(\varepsilon,\ \lvert y_i\rvert + \lvert \hat{y}_i\rvert)[/math] dengan [math]\varepsilon[/math] kecil untuk menghindari ledakan nilai ketika kedua besaran mendekati nol.
Kesesuaian per variabel
Temperatur dan konsentrasi PM2.5 diobservasi dalam skala linier dengan noise relatif stabil; MAE menjadi pilihan utama karena robust terhadap outlier dan mudah dikomunikasikan, sedangkan RMSE menambah sensitivitas pada ekor distribusi ketika peramal diminta berhati-hati pada ekstrem. Untuk AQI, evaluasi dapat dilakukan di dua ranah: kontinu (MAE atau RMSE dalam unit indeks) dan kategorikal (akurasi atau F1 score terhadap ambang resmi seperti AQI ≥ 100). Variabel angin memerlukan perhatian khusus: kecepatan dapat dievaluasi dengan MAE/RMSE, tetapi arah adalah variabel sirkular sehingga selisih harus dihitung sebagai sudut minimum dalam rentang [0∘,180∘][0^\circ,180^\circ][0∘,180∘], bukan selisih linier biasa. Curah hujan bersifat zero-inflated; selain kesalahan kontinu pada transformasi log(1+mm)\log(1+\text{mm})log(1+mm), evaluasi probabilistik seperti Brier score untuk kejadian “hujan ≥ X mm” seringkali lebih representatif.
Desain evaluasi untuk deret waktu
Keandalan metrik bergantung pada rancangan pembelahan data. Karena ketergantungan temporal, uji acak (random shuffle) harus dihindari. Pendekatan yang tepat adalah blocked atau rolling backtesting, misalnya melatih model pada jendela historis kemudian mengujinya pada rentang ke depan untuk beberapa horizon (0–1 jam untuk nowcast, 1–6 jam untuk jangka pendek, hingga 24 jam). Untuk menilai kemampuan generalisasi spasial, uji leave-one-station-out bermanfaat: stasiun yang dipegang-keluarkan menjadi lokasi uji, sedangkan stasiun lain menjadi data latih. Proses penyaringan kualitas data, sinkronisasi waktu, dan penanganan missingness harus dijelaskan; cakupan sampel (proporsi pasang observasi-prediksi yang valid) sebaiknya dilaporkan bersama metrik agar angka akurasi tidak bias karena pembuangan data yang terlalu agresif.
Pengolahan kasus khusus
Nilai dekat nol menimbulkan tantangan bagi metrik berbasis persentase. SMAPE mereduksi bias MAPE, tetapi tetap memerlukan ε\varepsilonε. Untuk hujan, ketidakseragaman antara banyak nol dan beberapa nilai sangat besar membuat evaluasi murni berbasis MAE/RMSE kurang informatif; di sini, pemodelan kejadian (apakah terjadi hujan) dipisahkan dari intensitas (berapa besar hujan) menghasilkan penilaian yang lebih jujur. Pada arah angin, transformasi ke sudut terkecil memastikan kesalahan 350° terhadap 10° dipahami sebagai 20° alih-alih 340°.
Agregasi dan pembobotan
Pelaporan tunggal untuk seluruh data sering menutupi bias musiman atau geografis. Evaluasi sebaiknya dipecah menurut horizon, musim (kemarau–hujan), dan rentang nilai (misal PM2.5 rendah vs tinggi). Dalam konteks kualitas udara, akurasi pada jam-jam paparan tinggi atau wilayah berpenduduk padat lebih bermakna; weighted MAE dengan bobot populasi atau paparan dapat diterapkan sebagai
= \frac{\sum_{i=1}^{n} w_i \,\lvert y_i-\hat{y}_i\rvert}{\sum_{i=1}^{n} w_i}\,.[/math]
Nilai positif menunjukkan keuntungan nyata, sedangkan nilai negatif menandakan bahwa model canggih belum mengalahkan strategi sangat sederhana. Untuk produk yang akan dipakai publik, melampaui persistensi pada horizon 1–3 jam adalah ambang minimal yang rasional.
Ketidakpastian dan uji signifikansi
Perbedaan dua model tidak selalu berarti perbaikan yang sah. Interval kepercayaan bagi MAE/RMSE dapat diperoleh dengan block bootstrap untuk mempertahankan struktur temporal. Untuk membandingkan dua peramal pada horizon sama, uji Diebold–Mariano menyediakan kerangka formal. Selain nilai rata-rata, statistik kuantil seperti median dan persentil ke-90 dari kesalahan absolut membantu menakar “ekor” yang dirasakan pengguna.
Praktik pelaporan yang dapat diaudit
Pelaporan yang baik menggabungkan angka ringkas dan visualisasi ringkas. Kurva kesalahan terhadap horizon memberi pemahaman cepat tentang degradasi prediksi ketika jendela waktu memanjang. Heatmap stasiun memetakan heterogenitas spasial. Untuk AQI kategori, confusion matrix antarkelas memaparkan pola over-warning atau missed event. Di luar angka periodik, dokumentasi publik tentang metodologi—konversi konsentrasi ke indeks, skema kalibrasi sensor, dan prosedur kontrol kualitas—meningkatkan kepercayaan dan replikabilitas.
Rekomendasi operasional untuk Satu Cuaca
Dalam operasi harian, kami merekomendasikan serangkaian metrik inti berikut. Untuk temperatur, laporkan MAE dan RMSE per horizon 0–24 jam; sasaran realistis pada wilayah perkotaan padat adalah MAE di bawah 1 °C untuk 0–6 jam. Untuk PM2.5, gunakan MAE dan RMSE pada konsentrasi, tambahkan MAE pada unit AQI, serta evaluasi kategorikal pada ambang AQI ≥ 100 dan ≥ 150; laporkan pula hit rate dan false alarm rate. Untuk hujan, sediakan skor probabilistik kejadian (Brier) dan sajikan kesalahan intensitas pada transformasi log(1+mm)\log(1+\text{mm})log(1+mm). Untuk angin, gabungkan MAE kecepatan dan kesalahan sudut arah. Semua metrik dipecah per musim dan per wilayah, dengan satu tabel skill score terhadap persistensi untuk tiap horizon. Publikasi bulanan di halaman mutu dengan arsip historis mendorong akuntabilitas dan pembelajaran organisasi.
MAE, RMSE, dan SMAPE menyediakan tiga perspektif yang saling menguatkan tentang akurasi: kedekatan rata-rata, penalti terhadap kesalahan besar, dan skala persentase yang memudahkan perbandingan. Namun metrik tidak berdiri sendiri; nilainya hanya bermakna ketika didukung rancangan evaluasi deret waktu yang tepat, penanganan fenomena khusus domain, serta pelaporan yang terstruktur menurut horizon, musim, dan lokasi. Dengan disiplin ini, evaluasi berubah dari kosmetik menjadi instrumen kendali mutu: ia membimbing perbaikan model, kalibrasi sensor, dan—pada akhirnya—keputusan publik yang lebih aman ketika menghadapi cuaca ekstrem dan episode polusi udara.
