Untuk merevolusi penemuan ilmiah, kecerdasan buatan harus terlebih dahulu menguasai seni pengambilan keputusan yang efisien. Sebuah studi baru-baru ini menunjukkan bahwa mengajarkan AI untuk bermain Battleship menawarkan tempat pelatihan yang sangat efektif untuk mencapai tujuan ini. Dengan memaksa model untuk memanfaatkan sumber daya yang terbatas, para peneliti telah mengembangkan teknik yang dapat mengubah cara AI merancang eksperimen dan mengejar hipotesis dalam bidang ilmiah yang kompleks.
Biaya Keingintahuan
Penelitian ilmiah pada dasarnya adalah permainan pengelolaan sumber daya. Peneliti harus memutuskan hipotesis mana yang akan diuji dan simulasi mana yang akan dijalankan, seringkali menghadapi kendala yang ketat dalam hal waktu, uang, atau ketersediaan data. Seperti yang dicatat oleh Valerio Pepe, seorang ilmuwan peneliti yang memimpin penelitian sebelum bergabung dengan OpenAI, “Anda hanya bisa mendapatkan begitu banyak data karena mendapatkan data itu mahal atau memakan waktu.”
Tantangan bagi AI bukan hanya menemukan jawaban, namun menemukannya secara efisien. Hal ini memerlukan penguasaan atas apa yang Pepe sebut sebagai “intervensi murah” dalam pencarian informasi—strategi yang memaksimalkan nilai dari setiap kueri atau eksperimen. Untuk mengujinya, tim beralih ke permainan papan klasik.
Sentuhan Kolaboratif pada Game Klasik
Para peneliti merancang Battleship versi kolaboratif dan terspesialisasi. Dalam variasi ini, satu pemain bertindak sebagai “penanya”, yang menghasilkan pertanyaan tentang lokasi kapal yang tersembunyi, sementara pemain lain bertindak sebagai “penjawab”. Tujuannya adalah agar tim dapat menentukan dan menenggelamkan semua kapal dalam jumlah putaran sesedikit mungkin.
Penyiapan ini memungkinkan tim untuk membandingkan secara cermat keterampilan pengambilan keputusan model bahasa besar (LLM) dengan pemain manusia. Studi yang dipresentasikan pada Konferensi Internasional tentang Representasi Pembelajaran (ICLR) ini mengadu model AI dengan kelompok kontrol yang terdiri dari 42 partisipan manusia.
Awalnya, hasil penelitian ini menyoroti kesenjangan dalam efisiensi:
* Manusia secara konsisten menang dalam jumlah gerakan yang lebih sedikit dibandingkan Llama-4-Scout, model AI Meta yang berfokus pada efisiensi.
* GPT-5, model penalaran utama OpenAI, mengungguli manusia dan Llama-4-Scout dalam performa mentah.
Namun, tenaga mentah bukanlah satu-satunya metrik. Para peneliti mencari cara untuk mengoptimalkan efektivitas biaya, dengan tujuan menciptakan model yang dapat bersaing dengan mesin penalaran papan atas dengan biaya komputasi yang lebih murah.
Mengoptimalkan Perolehan Informasi
Untuk menjembatani kesenjangan tersebut, tim menerapkan prinsip dari desain eksperimental Bayesian. Kerangka statistik ini membantu peneliti memperkirakan kemungkinan terjadinya peristiwa berdasarkan asumsi sebelumnya, sehingga memungkinkan mereka memilih eksperimen yang menghasilkan potensi perolehan informasi tertinggi.
Para ilmuwan mengoptimalkan model mereka untuk:
1. Ajukan pertanyaan yang memaksimalkan kemungkinan mencapai target.
2. Memaksimalkan jumlah informasi baru yang diperoleh per pertanyaan.
3. Melihat ke depan dalam beberapa tahap untuk mengantisipasi hasil di masa depan.
Sebuah terobosan penting datang dalam metode komunikasi. Para peneliti menemukan bahwa akurasi dan efisiensi meningkat ketika pemain AI berkomunikasi menggunakan potongan kode dibandingkan bahasa alami. Kode memberikan struktur logika yang tepat dan tidak ambigu yang sering kali tidak dimiliki bahasa alami dalam tugas penalaran yang kompleks.
Hasilnya: Efisiensi Dibandingkan Tenaga Mentah
Pengoptimalan ini secara signifikan meningkatkan performa model yang lebih kecil. Llama-4-Scout yang halus:
* Menang dalam gerakan lebih sedikit dibandingkan GPT-5 dalam dua pertiga waktu.
* Mencapai hasil ini dengan biaya sekitar seperseratus dari biaya.
* Kalahkan pemain manusia dengan rata-rata tujuh gerakan lebih sedikit.
Hasil ini menunjukkan bahwa model yang lebih kecil dan tertata dengan baik dapat mengungguli model yang lebih besar dan lebih mahal jika menggunakan penalaran strategis yang unggul dan protokol komunikasi yang efisien.
Dari Permainan Papan hingga Pekerjaan Lab
Meskipun Battleship adalah lingkungan yang disederhanakan dibandingkan dengan realitas kimia atau biologi yang berantakan, logika yang mendasarinya tetap relevan. Sampel ilmiah tidak selalu memberikan “hasil” atau “kegagalan” yang jelas, namun kebutuhan untuk menavigasi “ruang hipotesis” yang luas bersifat universal.
Yuanqi Du, seorang peneliti yang berfokus pada AI untuk bidang kimia yang tidak terlibat dalam penelitian ini, menekankan implikasi yang lebih luas: “Kerangka kerja ini akan sangat berguna untuk mengukur apakah model bahasa benar-benar mengalami kemajuan dalam memutuskan hipotesis mana yang harus dikejar di antara semua kemungkinan.”
Kesimpulan
Dengan memperlakukan penyelidikan ilmiah sebagai permainan strategis untuk memaksimalkan informasi, penelitian ini memberikan metode terukur untuk mengevaluasi dan meningkatkan kemampuan pengambilan keputusan AI. Saat AI beralih dari teka-teki sederhana ke tugas laboratorium yang kompleks, kemampuan untuk mengajukan pertanyaan yang tepat secara efisien akan sama pentingnya dengan kemampuan menjawabnya.




















