Penulis hanya membaca sepintas berita kebakaran di IDC Duren Tiga, namun merasa sangat prihatin karena downtime-nya terlalu lama. IDC adalah jantung dari Internet Indonesia, OpenIXP/NiCE, yang berdiri sebagai carrier neutral rack based data center, diantara dominasi korporasi besar. Sebagai penjaga warnet, bagian dari komunitas IT Republik Indonesia, Penulis merasa berkewajiban untuk mengangkat beberapa hal terkait kasus ini.
Thermal Runaway
Dari berita kejadian, mengasumsikan semua informasi benar:
- Data center berusia 10 tahun
- Kapasitas UPS tidak berlebihan, masih ada UPS cadangan, rak masih jauh dari kapasitas maksimal
- UPS seharga USD 60ribu
- UPS terbakar, menimbulkan asap di Lantai 2
- Bertahap dinyalakan karena flooding air pemadam
- Pulih setelah belasan jam
Disini sangat kuat dugaan Penulis bahwa kebakaran batere UPS akibat kejadian yang disebut sebagai thermal runaway.
Kebakaran akibat thermal runaway adalah hal yang dikenal lazim terjadi pada batere. Thermal runaway adalah kondisi dimana reaksi kimia batere menimbulkan panas yang terus bertambah.
- Oleh suatu sebab, voltase batere berubah, sehingga menimbulkan panas.
- Sampai pada satu titik, panas tersebut memulai reaksi kimia yang lebih memacu panas.
- Cairan kimia pada batere habis karena mendidih, merusak 1 sel batere.
- Karena 1 sel batere rusak, sementara charger tetap memberikan voltase yang sama, maka sel batere lain menerima voltase lebih tinggi, sehingga menjadi panas pula. Ditambah panas dari sel batere yang pertama rusak.
- Demikianlah seluruh batere pada satu lokasi menjadi panas, dan menyebar ke kelompok batere lain yang berdekatan.
- Pada tingkat panas tertentu, batere UPS akan meledak, membakar tempat batere dan UPS-nya.
- Reaksi kimia thermal runaway tidak hilang begitu voltase dimatikan, akibatnya, sekalipun listrik sudah mati, dan api dipadamkan, batere bisa memicu api atau ledakan kembali.
- Reaksi mengeluarkan gas hidrogen sulfida dan sulfur dioksida dari cairan dam elektrolit batere yang mendidih. Gas ini berbau, beracun, dan berbahaya untuk manusia di ruangan tertutup.
Penyebab Thermal Runaway
Batere mengalami thermal runaway bisa disebabkan beberapa hal:
- Umur batere. Thermal runaway dapat terjadi pada umur batere lead acid biasa diatas 10 tahun, dan diatas 5 tahun untuk VRLA (maintenance free batere).
- Over voltage. Misalnya kelebihan beban. Namun umumnya UPS memiliki load monitor yang akan berbunyi jika terjadi over voltage.
- Kerusakan / kebocoran batere. Ini seharusnya sangat jarang terjadi untuk batere UPS seharga USD 60ribu.
- Korosi pada terminal batere. Hal ini terjadi dalam waktu lama, dan pada titik tertentu bisa menimbulkan gangguan tegangan.
- Panas. Sering terjadi dalam kondisi AC terganggu. Dalam hal ini tidak berarti harus panas sekali, tetapi suhu yang kurang dingin, dikombinasikan dengan salah satu faktor diatas, dapat memulai proses thermal runaway.
Mencegah Thermal Runaway
Menggunakan cara state of the art, bisa dengan membeli UPS teknologi super canggih. UPS canggih memiliki sistem monitoring yang terkoneksi ke komputer. Namun jangan dilupakan, hal ini harus dilengkapi dengan software pemeliharaan server dengan kemampuan mengirimkan signal (mis: email) ke sysadmin jika terjadi event tertentu (misalnya kenaikan suhu UPS). Tanpa software pemeliharaan tersebut, log UPS dan log server akan sia-sia belaka. Cukup banyak produk opensource yang beredar, khususnya untuk keluarga OS Server Linux.
Cara lain dengan preventif maintenance terjadwal, diikuti dengan penggantian rutin batere UPS maksimal setiap 5 tahun. Tentunya untuk data center besar.
Bagaimana dengan data center kecil, atau bahkan single server room ? (ini bukan rekomendasi profesional:-)
Untuk UPS dengan fasilitas pemantauan terbatas (misalnya tidak ada pemantauan suhu), maka pemasangan indikator panas di dalam UPS dapat membantu. Di pasaran terdapat cukup banyak indikator yang dapat dikoneksikan ke PC pemantau. Ini cara-cara kelas warnet tentunya, tapi efektif. Sebelum thermal runaway terjadi, suhu akan meningkat selama berjam-jam, memungkinkan sysadmin memantau dan melakukan tindakan. Jangan lupa watchdog, software pengingat untuk kondisi log tertentu, karena manusia bisa khilaf, lupa melakukan kegiatan rutin.
Bagi server room kecil, yang tidak memiliki rak terbatas, cara yang cukup efektif adalah: memastikan AC selalu bekerja (redundant), dan suhu sangat rendah (dibawah 18 derajat). Thermal runaway untuk dapat terjadi membutuhkan waktu beberapa jam, dalam kondisi panas tidak bisa dialirkan (tidak ter disipasi). Ruang server yang super dingin akan menolong memperlama proses sebelum thermal runaway terjadi, setidaknya membutuhkan beberapa hari.
Lalu bagaimana ? Setiap hari lakukan survey kunjungan staf, cek bau, lalu cek setiap terminal batere UPS, apakah terjadi proses korosi atau ada endapan yang terlihat pada batere. Jika ada, langsung ganti batere tersebut.