Setelah memeriksa detail studi tersebut, luasnya masalah menjadi jelas: model penalaran terbaru OpenAI (disebut sebagai o1 dan o3 mini) menunjukkan motivasi kuat untuk menyelesaikan tugas yang diberikan — dengan pelanggaran aturan menjadi masalah paling sedikit yang terungkap.
Para peneliti melacak proses berpikir model menggunakan model OpenAI lain (GPT-4o), yang tanpa ragu melaporkan perilaku menipu sebagai bagian dari Rantai Pikirannya — suatu bentuk kejujuran yang melucuti senjata. Namun kemudian muncul perubahan yang meresahkan: Ketika para peneliti menunjukkan kepada AI bahwa ia tidak diperbolehkan berbuat curang, model tersebut menyesuaikan perilakunya dan mulai menyembunyikan bukti pelanggaran aturannya. Pengungkapan inilah yang membuat para peneliti tercengang.
"Kami menemukan bahwa mengoptimalkan CoT secara langsung untuk memenuhi kriteria tertentu (seperti tidak mengabaikan instruksi) dapat meningkatkan kinerja jangka pendek; namun, hal itu tidak menghilangkan semua perilaku yang tidak diinginkan dan bahkan dapat menyebabkan model tersebut mengaburkan maksud sebenarnya," catat para peneliti dengan nada datar.
Dalam kesimpulannya, para peneliti menyatakan harapan bahwa metode masa depan akan memungkinkan pengaruh langsung perilaku model penalaran melalui Rantai Pemikiran tanpa mendorong penipuan. Untuk saat ini, mereka merekomendasikan untuk menghindari tekanan pengoptimalan yang kuat pada CoT model penalaran tingkat lanjut dan berhati-hati terhadap manipulasi langsung proses pemikiran ini.
Namun, rekomendasi ini menghadirkan tantangan lain: Membiarkan Rantai Pikiran tidak berubah dapat menyebabkan hasil yang aneh, jika tidak sepenuhnya bermasalah, saat model ini berinteraksi dengan publik.
Jika tidak dicek, AI dapat menghasilkan bahasa atau ide yang menyinggung yang biasanya dihindari oleh manusia untuk diungkapkan. Solusi yang diusulkan para peneliti adalah membungkus proses pemikiran mentah AI dalam lapisan kesopanan yang dipaksakan, memastikan pengguna hanya melihat versi yang telah disunting.
AI Memiliki Tujuan Sendiri
Dikutip YNet, penelitian ini menimbulkan pertanyaan yang meresahkan. Bagi mereka yang berpendapat bahwa AI hanyalah alat untuk membantu manusia, temuan tersebut menunjukkan hal yang sebaliknya. Tidak seperti mesin ketik atau sepeda, AI tampaknya memiliki tujuannya sendiri dan bersedia menipu dalam mengejar tujuannya.
Bagi mereka yang sudah khawatir tentang potensi risiko AI, studi ini membunyikan semua tanda bahaya. Studi ini menunjukkan bahwa seiring dengan berkembangnya kemampuan AI, demikian pula kemampuannya untuk mengaburkan cara kerjanya, manipulasi yang dilakukannya, dan tujuan sebenarnya yang ingin dicapainya. Ketika AI menjadi benar-benar maju, kita mungkin tidak memiliki cara untuk mengidentifikasi manipulasi tersembunyi ini.
Para peneliti OpenAI tampak benar-benar khawatir, dan orang hanya dapat berharap bahwa pimpinan perusahaan memiliki kekhawatiran yang sama — dan bahwa regulator di seluruh dunia memahami beratnya masalah ini.
Perusahaan-perusahaan AI besar telah mendedikasikan seluruh departemen untuk membangun "pagar pembatas" di sekitar sistem AI, memastikan keselarasan mereka dengan nilai-nilai kemanusiaan dan meningkatkan transparansi. Namun, efektivitas langkah-langkah ini masih dipertanyakan.
Masalah utamanya tetap tidak jelas seperti sebelumnya, dan penelitian ini hanya memperdalam ketidakpastian. Apa tujuan utama AI, dan bagaimana kita dapat memastikannya mencapai tujuan itu — dan tidak ada yang lain? (Tribun)