Idealnya, titik-titik data yang dihasilkan harus membentuk pola yang beraturan atau saling berdekatan untuk menunjukkan bahwa ada hubungan langsung antara kedua variabel ini.Â
Jika tidak, berarti ada hal lain yang mempengaruhi hubungan ini, seperti variabel lain yang tidak diperhitungkan dalam model ini.Â
Grafik di bawah ini menunjukkan memang ada hubungan linier yang kuat antara kedua variabel, yang mendukung hipotesis saya bahwa terdapat hubungan langsung antara jumlah gol yang dicetak dan jumlah poin yang diraih.
Dengan demikian, kita bisa mengambil langkah selanjutnya yaitu menganalisis data dengan menggunakan analisis regresi linier.Â
Variabel prediktor dan respons, atau biasa disebut juga variabel independen dan dependen, telah ditentukan. Selanjutnya, saya akan menggunakan persamaan berikut: Y = a + bX.
Dalam persamaan ini, Y adalah jumlah poin yang akan dicetak tim di pertandingan mendatang, X adalah jumlah poin yang telah dicetak tim di masa lalu, b adalah kemiringan garis yang menunjukkan berapa banyak skor akan berubah untuk setiap peningkatan satu poin dalam jumlah poin yang telah dicetak tim di masa lalu, dan a adalah titik potong garis yang menunjukkan di mana skor poin akan dimulai untuk setiap tim.
Untuk mendapatkan pemahaman yang lebih baik tentang cara kerja persamaan ini, kita dapat menggunakan metode kuadrat terkecil (least squares method).
Nah, untuk menemukan kecocokan dari data yang ada, di mana persamaan normal untuk a adalah Y = na + b∑X, dan persamaan normal untuk b adalah XY = a∑X + b∑X^2. Dengan menyelesaikan dua persamaan normal ini kita bisa mendapatkan garis yang paling sesuai dengan rumus Y = a + bX.
Selanjutnya, kedua persamaan tadi akan saya implementasikan pada data yang telah kita bahas sebelumnya. Namun sebelum itu, kita harus olah kembali data pada tabel di atas agar memenuhi variabel kedua persamaan tersebut, seperti terlihat di bawah.