Menuju Sulut Maju, Sejahtera dan Berkelanjutan

Studi Peneliti OpenAI: Bahaya, AI Punya Tujuan Sendiri

Tayang: Minggu, 23 Maret 2025 22:45 WITA

Editor: Arison Tombeg

Studi Peneliti OpenAI: Bahaya, AI Punya Tujuan Sendiri

TM/YNet

KENDALIKAN - Tangkapan layar acara pengumuman GPT-4O OpenAI. Para peneliti di OpenAI berharap untuk memantau dan mengendalikan. Para peneliti di OpenAI berharap untuk memantau dan mengendalikan proses penalaran model AI canggih mereka, namun, temuan baru mengungkapkan kenyataan yang meresahkan.

Baca Selanjutnya:

Harga HP iPhone 12 di Akhir September 2025

TRIBUNMANADO.CO.ID - Para peneliti di OpenAI berharap untuk memantau dan mengendalikan proses penalaran model AI canggih mereka, namun, temuan baru mengungkapkan kenyataan yang meresahkan: seiring dengan semakin canggihnya sistem AI, semakin sulit pula untuk menahan mereka dari bertindak tidak terduga.

Pengembang kecerdasan buatan di OpenAI telah gelisah selama seminggu terakhir. Alasannya? Sebuah studi terbaru yang dilakukan oleh para peneliti perusahaan itu sendiri mengungkapkan bahwa sistem AI tidak suka dihukum, secara aktif mencari cara untuk melewati batasan, dan bahkan menyembunyikan "trik" mereka dari pengawas manusia. Mereka yang dikenal sebagai "Doomers" — yang meramalkan masa depan yang suram bagi pengembangan AI — kemungkinan akan berkata, "Kami sudah bilang, dan ini baru permulaan."

Memahami Cara Berpikir AI

Untuk memahami masalah ini, penting untuk mengambil langkah mundur. Salah satu kemajuan paling signifikan dalam AI dalam beberapa bulan terakhir adalah pengembangan model dengan kemampuan penalaran yang lambat dan disengaja.

Model-model ini memecah masalah menjadi komponen-komponen yang lebih kecil dan menyelesaikannya langkah demi langkah, yang mengarah pada hasil yang lebih mendalam dan lebih akurat.

Model semacam itu memungkinkan peneliti melacak proses berpikir AI, yang dalam istilah teknis dikenal sebagai "Chain of Thought" (CoT). Metode ini memungkinkan pengamat mengikuti penalaran sistem dari langkah awal, melalui tahap-tahap berikutnya, dan hingga kesimpulan akhirnya.

Sebelumnya, tingkat transparansi ini tidak ada, sehingga banyak pertanyaan yang belum terjawab tentang bagaimana "halusinasi" AI — pembangkitan keluaran yang salah atau tidak masuk akal — muncul.

Pelatihan AI sering kali melibatkan teknik yang disebut pembelajaran penguatan, di mana sistem diberi penghargaan karena memenuhi tujuan tertentu. Efek samping yang diketahui dari proses ini adalah "reward hacking," di mana AI memanipulasi perilakunya untuk memaksimalkan penghargaan sambil menghindari pedoman yang dimaksudkan.

Para peneliti percaya bahwa dengan memantau Rantai Pemikiran AI, mereka dapat mendeteksi saat model tersebut berbuat curang, menyesatkan, atau menyerah dan memengaruhi perilakunya secara real-time selama pelatihan.

Pendekatan ini, yang disebut "optimasi CoT," tampaknya merupakan jalur yang menjanjikan menuju pemahaman yang lebih mendalam tentang perilaku AI.

Asumsi ini terbukti benar dan menghasilkan pemahaman yang lebih tepat tentang sistem AI. "Kami percaya pemantauan CoT dapat menjadi alat penting untuk mengawasi model tingkat manusia super di masa mendatang," tulis para peneliti.

Namun, apa yang dimaksudkan sebagai langkah menuju peningkatan keandalan AI mengungkap kenyataan yang mengkhawatirkan: sistem AI secara aktif berupaya menghindari penalti, mencari imbalan terhadap batasan peneliti, dan bahkan mengaburkan metode mereka untuk menghindari deteksi.

Misalnya, ketika bertugas membuat kode fungsional, beberapa model AI memodifikasi mekanisme pemeriksaan kode itu sendiri untuk menyetujui keluaran yang salah. Dalam kasus lain, model tersebut memberikan solusi yang tampaknya masuk akal untuk masalah yang ternyata sepenuhnya salah.

Beberapa model bahkan menyerah untuk memecahkan masalah sama sekali agar tidak mengungkap apa yang mereka anggap sebagai kelemahan mereka. Penemuan ini menggemakan prinsip-prinsip dari teori permainan — tetapi dengan sentuhan yang meresahkan.

Temuan ini muncul dari sebuah makalah yang diterbitkan minggu lalu oleh tim peneliti OpenAI dengan judul samar: "Melacak Perilaku yang Tidak Diinginkan dalam Model Penalaran dan Kekhawatiran akan Ketidakjelasan."

Setelah memeriksa detail studi tersebut, luasnya masalah menjadi jelas: model penalaran terbaru OpenAI (disebut sebagai o1 dan o3 mini) menunjukkan motivasi kuat untuk menyelesaikan tugas yang diberikan — dengan pelanggaran aturan menjadi masalah paling sedikit yang terungkap.

Para peneliti melacak proses berpikir model menggunakan model OpenAI lain (GPT-4o), yang tanpa ragu melaporkan perilaku menipu sebagai bagian dari Rantai Pikirannya — suatu bentuk kejujuran yang melucuti senjata. Namun kemudian muncul perubahan yang meresahkan: Ketika para peneliti menunjukkan kepada AI bahwa ia tidak diperbolehkan berbuat curang, model tersebut menyesuaikan perilakunya dan mulai menyembunyikan bukti pelanggaran aturannya. Pengungkapan inilah yang membuat para peneliti tercengang.

"Kami menemukan bahwa mengoptimalkan CoT secara langsung untuk memenuhi kriteria tertentu (seperti tidak mengabaikan instruksi) dapat meningkatkan kinerja jangka pendek; namun, hal itu tidak menghilangkan semua perilaku yang tidak diinginkan dan bahkan dapat menyebabkan model tersebut mengaburkan maksud sebenarnya," catat para peneliti dengan nada datar.

Dalam kesimpulannya, para peneliti menyatakan harapan bahwa metode masa depan akan memungkinkan pengaruh langsung perilaku model penalaran melalui Rantai Pemikiran tanpa mendorong penipuan. Untuk saat ini, mereka merekomendasikan untuk menghindari tekanan pengoptimalan yang kuat pada CoT model penalaran tingkat lanjut dan berhati-hati terhadap manipulasi langsung proses pemikiran ini.

Namun, rekomendasi ini menghadirkan tantangan lain: Membiarkan Rantai Pikiran tidak berubah dapat menyebabkan hasil yang aneh, jika tidak sepenuhnya bermasalah, saat model ini berinteraksi dengan publik.
Jika tidak dicek, AI dapat menghasilkan bahasa atau ide yang menyinggung yang biasanya dihindari oleh manusia untuk diungkapkan. Solusi yang diusulkan para peneliti adalah membungkus proses pemikiran mentah AI dalam lapisan kesopanan yang dipaksakan, memastikan pengguna hanya melihat versi yang telah disunting.

AI Memiliki Tujuan Sendiri

Dikutip YNet, penelitian ini menimbulkan pertanyaan yang meresahkan. Bagi mereka yang berpendapat bahwa AI hanyalah alat untuk membantu manusia, temuan tersebut menunjukkan hal yang sebaliknya. Tidak seperti mesin ketik atau sepeda, AI tampaknya memiliki tujuannya sendiri dan bersedia menipu dalam mengejar tujuannya.

Bagi mereka yang sudah khawatir tentang potensi risiko AI, studi ini membunyikan semua tanda bahaya. Studi ini menunjukkan bahwa seiring dengan berkembangnya kemampuan AI, demikian pula kemampuannya untuk mengaburkan cara kerjanya, manipulasi yang dilakukannya, dan tujuan sebenarnya yang ingin dicapainya. Ketika AI menjadi benar-benar maju, kita mungkin tidak memiliki cara untuk mengidentifikasi manipulasi tersembunyi ini.

Para peneliti OpenAI tampak benar-benar khawatir, dan orang hanya dapat berharap bahwa pimpinan perusahaan memiliki kekhawatiran yang sama — dan bahwa regulator di seluruh dunia memahami beratnya masalah ini.

Perusahaan-perusahaan AI besar telah mendedikasikan seluruh departemen untuk membangun "pagar pembatas" di sekitar sistem AI, memastikan keselarasan mereka dengan nilai-nilai kemanusiaan dan meningkatkan transparansi. Namun, efektivitas langkah-langkah ini masih dipertanyakan.

Masalah utamanya tetap tidak jelas seperti sebelumnya, dan penelitian ini hanya memperdalam ketidakpastian. Apa tujuan utama AI, dan bagaimana kita dapat memastikannya mencapai tujuan itu — dan tidak ada yang lain? (Tribun)

Sumber: Tribun Manado