Penulis hanya membaca sepintas berita kebakaran di IDC Duren Tiga, namun merasa sangat prihatin karena downtime-nya terlalu lama. IDC adalah jantung dari Internet Indonesia, OpenIXP/NiCE, yang berdiri sebagai carrier neutral rack based data center, diantara dominasi korporasi besar. Sebagai penjaga warnet, bagian dari komunitas IT Republik Indonesia, Penulis merasa berkewajiban untuk mengangkat beberapa hal terkait kasus ini.
Thermal Runaway
Dari berita kejadian, mengasumsikan semua informasi benar:
- Data center berusia 10 tahun
- Kapasitas UPS tidak berlebihan, masih ada UPS cadangan, rak masih jauh dari kapasitas maksimal
- UPS seharga USD 60ribu
- UPS terbakar, menimbulkan asap di Lantai 2
- Bertahap dinyalakan karena flooding air pemadam
- Pulih setelah belasan jam
Disini sangat kuat dugaan Penulis bahwa kebakaran batere UPS akibat kejadian yang disebut sebagai thermal runaway.
Kebakaran akibat thermal runaway adalah hal yang dikenal lazim terjadi pada batere. Thermal runaway adalah kondisi dimana reaksi kimia batere menimbulkan panas yang terus bertambah.
- Oleh suatu sebab, voltase batere berubah, sehingga menimbulkan panas.
- Sampai pada satu titik, panas tersebut memulai reaksi kimia yang lebih memacu panas.
- Cairan kimia pada batere habis karena mendidih, merusak 1 sel batere.
- Karena 1 sel batere rusak, sementara charger tetap memberikan voltase yang sama, maka sel batere lain menerima voltase lebih tinggi, sehingga menjadi panas pula. Ditambah panas dari sel batere yang pertama rusak.
- Demikianlah seluruh batere pada satu lokasi menjadi panas, dan menyebar ke kelompok batere lain yang berdekatan.
- Pada tingkat panas tertentu, batere UPS akan meledak, membakar tempat batere dan UPS-nya.
- Reaksi kimia thermal runaway tidak hilang begitu voltase dimatikan, akibatnya, sekalipun listrik sudah mati, dan api dipadamkan, batere bisa memicu api atau ledakan kembali.
- Reaksi mengeluarkan gas hidrogen sulfida dan sulfur dioksida dari cairan dam elektrolit batere yang mendidih. Gas ini berbau, beracun, dan berbahaya untuk manusia di ruangan tertutup.
Penyebab Thermal Runaway
Batere mengalami thermal runaway bisa disebabkan beberapa hal:
- Umur batere. Thermal runaway dapat terjadi pada umur batere lead acid biasa diatas 10 tahun, dan diatas 5 tahun untuk VRLA (maintenance free batere).
- Over voltage. Misalnya kelebihan beban. Namun umumnya UPS memiliki load monitor yang akan berbunyi jika terjadi over voltage.
- Kerusakan / kebocoran batere. Ini seharusnya sangat jarang terjadi untuk batere UPS seharga USD 60ribu.
- Korosi pada terminal batere. Hal ini terjadi dalam waktu lama, dan pada titik tertentu bisa menimbulkan gangguan tegangan.
- Panas. Sering terjadi dalam kondisi AC terganggu. Dalam hal ini tidak berarti harus panas sekali, tetapi suhu yang kurang dingin, dikombinasikan dengan salah satu faktor diatas, dapat memulai proses thermal runaway.
Mencegah Thermal Runaway
Menggunakan cara state of the art, bisa dengan membeli UPS teknologi super canggih. UPS canggih memiliki sistem monitoring yang terkoneksi ke komputer. Namun jangan dilupakan, hal ini harus dilengkapi dengan software pemeliharaan server dengan kemampuan mengirimkan signal (mis: email) ke sysadmin jika terjadi event tertentu (misalnya kenaikan suhu UPS). Tanpa software pemeliharaan tersebut, log UPS dan log server akan sia-sia belaka. Cukup banyak produk opensource yang beredar, khususnya untuk keluarga OS Server Linux.
Cara lain dengan preventif maintenance terjadwal, diikuti dengan penggantian rutin batere UPS maksimal setiap 5 tahun. Tentunya untuk data center besar.
Bagaimana dengan data center kecil, atau bahkan single server room ? (ini bukan rekomendasi profesional:-)
Untuk UPS dengan fasilitas pemantauan terbatas (misalnya tidak ada pemantauan suhu), maka pemasangan indikator panas di dalam UPS dapat membantu. Di pasaran terdapat cukup banyak indikator yang dapat dikoneksikan ke PC pemantau. Ini cara-cara kelas warnet tentunya, tapi efektif. Sebelum thermal runaway terjadi, suhu akan meningkat selama berjam-jam, memungkinkan sysadmin memantau dan melakukan tindakan. Jangan lupa watchdog, software pengingat untuk kondisi log tertentu, karena manusia bisa khilaf, lupa melakukan kegiatan rutin.
Bagi server room kecil, yang tidak memiliki rak terbatas, cara yang cukup efektif adalah: memastikan AC selalu bekerja (redundant), dan suhu sangat rendah (dibawah 18 derajat). Thermal runaway untuk dapat terjadi membutuhkan waktu beberapa jam, dalam kondisi panas tidak bisa dialirkan (tidak ter disipasi). Ruang server yang super dingin akan menolong memperlama proses sebelum thermal runaway terjadi, setidaknya membutuhkan beberapa hari.
Lalu bagaimana ? Setiap hari lakukan survey kunjungan staf, cek bau, lalu cek setiap terminal batere UPS, apakah terjadi proses korosi atau ada endapan yang terlihat pada batere. Jika ada, langsung ganti batere tersebut.
Masalah Nasional Pemadaman Kebakaran di Data Center
Kasus IDC mengangkat adanya masalah nasional untuk prosedur pemadam kebakaran di data center atau server room. Pada kasus IDC, menurut berita, dilakukan flooding air di fasilitas data center, padahal kondisi masih memungkinkan untuk pemadaman tanpa air.
Kasus ini sama sekali tidak menyalahkan salah satu pihak, apalagi pihak pemadam kebakaran yang sudah bekerja secara profesional.
Namun melihat kenyataan bahwa di Indonesia, server room dan data center sudah mulai menjamur, ada di hampir setiap gedung, maka tidak ada salahnya jika pihak-pihak yang berwenang dalam instansi pemadam kebakaran turut mengembangkan prosedur pemadam kebakaran yang lebih sesuai untuk ruang server dan data center tersebut.
Salah satu metode yang disarankan adalah membuat standarisasi lambang ruang server / data center yang sudah dilengkapi dengan peralatan pemadam kebakaran khusus (misalnya berbasishalocarbon clean agent atau inert gas). Bila perlu dilakukan sertifikasi/verifikasi oleh dinas pemadam kebakaran atas kelengkapan pemadam kebakaran yang ramah komputer tersebut. Dengan demikian pada kejadian kebakaran dalam skala rendah, pemadam kebakaran dapat melakukan prosedur pemadaman yang tanpa water flooding. Bisa dengan peralatan yang sudah tersedia di area data center / server room, atau lebih canggih lagi bila dinas pemadam kebakaran memiliki peralatan khusus pemadaman yang ramah elektronik.
Disini, komunitas IT Indonesia mungkin bisa membantu mewujudkan prosedur tersebut.
Unsur Kesengajaan
Tulisan ini tentu saja tidak menutup kemungkinan adanya unsur kesengajaan yang tengah di sidik oleh Polri. Walaupun pada kelazimannya, di Indonesia, masalah utama adalah kendala konsistensi pemeliharaan, sehingga dugaan kuat pada kejadian thermal runaway, namun harus menjadi prosedur tetap dalam kejadian seperti ini untuk melakukan pemeriksaan menyeluruh.
Malah idealnya menurut penulis selain Polri, BIN / TNI seharusnya memiliki unit Cyber Warfare yang langsung diturunkan pada kejadian seperti ini, melakukan asesmen untuk kemungkinan-kemungkinan yang merugikan pertahanan dan keamanan nasional, termasuk misalnya:
- Keamanan data terkait pertahanan nasional dan data sensitif
- Kemungkinan perang informasi yang mengaitkan kepentingan nasional
- Penempatan program pemantauan pada data center oleh pihak tidak berwenang
- Dan lain sebagainya yang lebih dari sekedar unsur kriminal, tetapi terkait hankamnas
Dalam hal ini IDC, sebagai jantung dari IIX / NiCE harus dipandang sebagai aset nasional.
Kita perlu ingat bahwa Internet adalah hasil dari riset militer, dengan demikian memiliki nilai penting dalam pertahanan keamanan.
Jangan Terjadi Lagi
Harapan Penulis agar kejadian down data center di Indonesia hingga belasan jam jangan sampai terjadi lagi, apalagi di data center utama Indonesia. Hal ini sangat menurunkan kewibawaan bangsa.
Ajakan kepada perusahaan asing untuk membangun data center atau jaringan server di Indonesia, seharusnya berangkat dari demo kehandalan jaringan internet nasional Indonesia. Bukan dengan paksaan, apalagi yang bertendensi mencari keuntungan pribadi / kelompok.
Karena itu harus dimulai dengan meningkatkan kualitas jaringan Internet Indonesia. Yaitu peningkatan standar pemeliharaan di Indonesia, serta prosedur penanganan bencana.
Prosedur pemeliharaan harus dibangun dengan baik secara nasional, dimana satu kejadian di satu tempat seharusnya dijadikan studi nasional untuk pembelajaran di seluruh Nusantara. Dengan demikian kita menjadi bangsa yang belajar satu sama lain, memanfaatkan kekuatan potensi kuantitas rakyat Indonesia yang 230 juta orang itu.
Kasus IDC berbeda dengan kekalahan PSSI 10:0, 7:0, 6:0, dan 5:0, dimana tanggung jawab ada pada 1 orang Ketua PSSI yang harusnya didesak untuk mundur, diganti oleh yang lebih mampu.
Kasus IDC adalah kasus pembelajaran, dimana tidak perlu ada pihak yang disalahkan atau merasa disudutkan, tetapi jangan juga kasus ini hilang begitu saja, melainkan harus dijadikan pembelajaran pada tingkat nasional. Evaluasi disain sistem, prosedur pemeliharaan, prosedur penanganan bencana, prosedur pemadam kebakaran di data center, serta bagaimana memperbaikinya DI SELURUH NUSANTARA. Disini peran APJII, sebagai sokoguru kemandirian Internet Indonesia, beserta seluruh komponen penggerak masyarakat lainnya sangat diharapkan.
Terima kasih.
ps: Sekedar catatan, untuk yang belum tahu, IDC sebagai rack provider tidak memiliki kewajiban menyediakan backup / DRC / dsb bagi pelanggan sewa rak-nya, kecuali jika layanan tersebut ada dan pelanggan mengambil paket layanan tersebut. Ini mengganggu di comment berita.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H