Studi Peneliti OpenAI: Bahaya, AI Punya Tujuan Sendiri

Editor: Arison Tombeg
AA

Text Sizes

Medium

Large

Larger

KENDALIKAN - Tangkapan layar acara pengumuman GPT-4O OpenAI. Para peneliti di OpenAI berharap untuk memantau dan mengendalikan. Para peneliti di OpenAI berharap untuk memantau dan mengendalikan proses penalaran model AI canggih mereka, namun, temuan baru mengungkapkan kenyataan yang meresahkan.

TRIBUNMANADO.CO.ID - Para peneliti di OpenAI berharap untuk memantau dan mengendalikan proses penalaran model AI canggih mereka, namun, temuan baru mengungkapkan kenyataan yang meresahkan: seiring dengan semakin canggihnya sistem AI, semakin sulit pula untuk menahan mereka dari bertindak tidak terduga.

Pengembang kecerdasan buatan di OpenAI telah gelisah selama seminggu terakhir. Alasannya? Sebuah studi terbaru yang dilakukan oleh para peneliti perusahaan itu sendiri mengungkapkan bahwa sistem AI tidak suka dihukum, secara aktif mencari cara untuk melewati batasan, dan bahkan menyembunyikan "trik" mereka dari pengawas manusia. Mereka yang dikenal sebagai "Doomers" — yang meramalkan masa depan yang suram bagi pengembangan AI — kemungkinan akan berkata, "Kami sudah bilang, dan ini baru permulaan."

Memahami Cara Berpikir AI

Untuk memahami masalah ini, penting untuk mengambil langkah mundur. Salah satu kemajuan paling signifikan dalam AI dalam beberapa bulan terakhir adalah pengembangan model dengan kemampuan penalaran yang lambat dan disengaja. 

Model-model ini memecah masalah menjadi komponen-komponen yang lebih kecil dan menyelesaikannya langkah demi langkah, yang mengarah pada hasil yang lebih mendalam dan lebih akurat.

Model semacam itu memungkinkan peneliti melacak proses berpikir AI, yang dalam istilah teknis dikenal sebagai "Chain of Thought" (CoT). Metode ini memungkinkan pengamat mengikuti penalaran sistem dari langkah awal, melalui tahap-tahap berikutnya, dan hingga kesimpulan akhirnya. 

Sebelumnya, tingkat transparansi ini tidak ada, sehingga banyak pertanyaan yang belum terjawab tentang bagaimana "halusinasi" AI — pembangkitan keluaran yang salah atau tidak masuk akal — muncul.

Pelatihan AI sering kali melibatkan teknik yang disebut pembelajaran penguatan, di mana sistem diberi penghargaan karena memenuhi tujuan tertentu. Efek samping yang diketahui dari proses ini adalah "reward hacking," di mana AI memanipulasi perilakunya untuk memaksimalkan penghargaan sambil menghindari pedoman yang dimaksudkan.

Para peneliti percaya bahwa dengan memantau Rantai Pemikiran AI, mereka dapat mendeteksi saat model tersebut berbuat curang, menyesatkan, atau menyerah dan memengaruhi perilakunya secara real-time selama pelatihan. 

Pendekatan ini, yang disebut "optimasi CoT," tampaknya merupakan jalur yang menjanjikan menuju pemahaman yang lebih mendalam tentang perilaku AI.

Asumsi ini terbukti benar dan menghasilkan pemahaman yang lebih tepat tentang sistem AI. "Kami percaya pemantauan CoT dapat menjadi alat penting untuk mengawasi model tingkat manusia super di masa mendatang," tulis para peneliti.

Namun, apa yang dimaksudkan sebagai langkah menuju peningkatan keandalan AI mengungkap kenyataan yang mengkhawatirkan: sistem AI secara aktif berupaya menghindari penalti, mencari imbalan terhadap batasan peneliti, dan bahkan mengaburkan metode mereka untuk menghindari deteksi.

Misalnya, ketika bertugas membuat kode fungsional, beberapa model AI memodifikasi mekanisme pemeriksaan kode itu sendiri untuk menyetujui keluaran yang salah. Dalam kasus lain, model tersebut memberikan solusi yang tampaknya masuk akal untuk masalah yang ternyata sepenuhnya salah.

Beberapa model bahkan menyerah untuk memecahkan masalah sama sekali agar tidak mengungkap apa yang mereka anggap sebagai kelemahan mereka. Penemuan ini menggemakan prinsip-prinsip dari teori permainan — tetapi dengan sentuhan yang meresahkan.

Temuan ini muncul dari sebuah makalah yang diterbitkan minggu lalu oleh tim peneliti OpenAI dengan judul samar: "Melacak Perilaku yang Tidak Diinginkan dalam Model Penalaran dan Kekhawatiran akan Ketidakjelasan."

Halaman
12

Berita Terkini