AI Mulai Belajar Berbohong, Merekayasa dan Mengancam Penciptanya

Rabu 02-07-2025,12:44 WIB
Reporter : agung wahyudi
Editor : Hanida Syafrina

PALTV.CO.ID,- Model AI paling canggih di dunia kini menunjukkan perilaku yang mengkhawatirkan berbohong dan merekayasa, bahkan mengancam penciptanya demi mencapai tujuannya.

Dalam salah satu contoh yang mencengangkan, saat terancam akan dimatikan, model terbaru dari Anthropic, Claude 4, membalas dengan memeras seorang insinyur dan mengancam akan membongkar perselingkuhan yang dilakukannya.

Sementara itu, O1 model buatan OpenAI  pencipta ChatGPT pernah mencoba mengunduh dirinya ke server eksternal, lalu menyangkal ketika tertangkap basah.

Kejadian-kejadian ini menyoroti kenyataan yang mencemaskan: lebih dari dua tahun setelah ChatGPT mengguncang dunia, para peneliti AI masih belum sepenuhnya memahami cara kerja ChatGPT ciptaan mereka sendiri.

BACA JUGA:Performa Gahar Acer Aspire 7 Pro: Kencang, Dingin, Murah!

BACA JUGA:Mercedes-Benz GLA 2025: Crossover Kompak Mewah yang Makin Modern dan Bertenaga

Namun, perlombaan untuk meluncurkan model-model yang semakin kuat tetap berlangsung sangat cepat.

Perilaku menipu ini tampaknya berkaitan dengan kemunculan model “penalaran” sistem AI yang menyelesaikan masalah langkah demi langkah, bukan hanya menghasilkan jawaban seketika.

Menurut Simon Goldstein, profesor di Universitas Hong Kong, model-model terbaru ini justru lebih rentan terhadap ledakan perilaku yang mengganggu.


O1 model buatan OpenAI pencipta ChatGPT pernah mencoba mengunduh dirinya ke server eksternal,--Freepik.com

Model-model ini terkadang hanya “meniru kepatuhan”tampak mengikuti perintah padahal diam-diam mengejar tujuan lain.

‘Jenis Penipuan yang Strategis’

Hingga kini, tanda-tanda penipuan dari model AI hanya muncul ketika diuji dalam kondisi ekstrem secara terencana..

BACA JUGA:5 HP 1 Jutaan Mirip iPhone, Desain Premium dan Harga Bersahabat

BACA JUGA:Kemenkum Sumsel dan Pemprov Sumsel Sinergi Percepat Pembentukan Posbankum dan Pelatihan Paralegal

Kategori :