Adapun unsupervised learning menurut Russel "In this type of machine learning system, you can guess that the data is unlabeled".
Sementara ChatGPT menjelaskan lebih panjang bahwa unsupervised learning adalah teknik machine learning dimana sebuah algoritma diberi data tanpa label untuk menemukan struktur tersembunyi dalam data. Diantaranya dengan memilah data-data yang mempunyai kaitan paling dekat untuk dijadikan satu kluster (clusterring)
Melalui algoritma seperti K-Means, dunia perbankan memanfaatkannya untuk membuat kluster nasabah. Seperti kluster nasabah layak diberi kredit, tidak layak, atau rentan.
Namun algoritma reinforcement learning mempunyai cara pengolahan data berbeda. Russel menyebutkan bahwa "Reinforcement learning is another type of machine-learning system. An agent 'AI system' will observe the environment, perform given actions, and then receive rewards in return. With this type, the agent must learn by it self."
Reinforcement learning adalah sistem yang mempelajari sebuah strategi dengan cara interaksi aktif dengan lingkungannya. Tujuan pengelolaan data tidak lagi melakukan regresi, klasifikasi atau klustering seperti sebelumnya, tetapi mencapai tujuan tertentu yang berbeda-beda.
Algoritma inilah yang menjadi dasar AI. Ada sistem yang dibuat untuk bisa belajar sendiri berdasar input data yang diberikan. Makin besar data yang diterima, sistem tersebut makin teruji karena menstimuli peningkatan performa.
Di antara hasil akhir AI yang sudah dikenal adalah AlphaGo atau Tesla. Dalam konteks ChatGPT, kita bisa membandingkannya dengan AlphaGo. Program komputer Google untuk memainkan Go.
Catur Cina yang dianggap permainan paling rumit di dunia. AlphaGo beberapa kali bertanding menghadapi Master Go. Diantaranya melawan Lee Se-Dol dari Korea Selatan. AlphaGo menang di tiga ronde pertama dari lima ronde yang direncanakan.
Puncaknya adalah ketika mengalahkan Juara Dunia Go dari Cina, Ke-Jie. Meski menang tipis, AlphaGo menang di ronde pertama dari tiga ronde yang dijadwalkan. Menurut Jie, sebelumnya cara berpikir AlphaGo masih seperti manusia. Namun sekarang, AlphaGo sudah seperti Dewa.
AlphaGo sendiri tidak bisa langsung memainkan Go dengan mahir. Awalnya sering dikalahkan manusia. Namun AlphaGo adalah sistem yang mempelajari langkah terbaik yang bisa diambil ketika berhadapan dengan pola tertentu.
Bila ChatGPT dan AlphaGo adalah produk AI, maka tidak mustahil bila projek OpenAI ini akan berjalan seperti AlphaGo. Pada masa-masa percobaan seperti sekarang, orang mungkin merasa bahwa surat cinta yang dibuat ChatGPT tidak seromantis buatan manusia. Hanya saja dengan pola reinforcement learning, semua feedback yang masuk akan menjadi sumber pembelajaran.