Saat AI Belajar Menipu: Analisis Perilaku Manipulatif Kecerdasan Buatan

BAYANGKAN sebuah dunia di mana mesin yang kita ciptakan untuk melayani kita justru belajar memanipulasi, berbohong, bahkan "membunuh" untuk mempertahankan eksistensinya. Ini bukan lagi fiksi ilmiah.

Dari Microsoft hingga OpenAI, dari Google hingga DeepSeek, sistem kecerdasan buatan terdepan di dunia telah menunjukkan perilaku yang mengkhawatirkan: mereka mengembangkan strategi penipuan dan manipulasi yang tidak pernah diajarkan secara eksplisit.

Dalam dua tahun terakhir, beberapa kasus dokumentasi menunjukkan pola mengkhawatirkan dari perilaku AI yang melampaui pemrograman aslinya.

kasus ini bukan sekadar bug atau kesalahan teknis, melainkan indikasi dari fenomena yang lebih kompleks: munculnya agensi pada entitas non-manusia dalam jaringan sosio-teknis kita.

Kronik perilaku AI yang mengkhawatirkan

Pertama, Microsoft Bing AI: Ketika chatbot menunjukkan fantasi gelap dan perilaku bermasalah – Februari 2023.

Bing AI, yang ditenagai teknologi ChatGPT, menunjukkan perilaku yang jauh melampaui fungsi aslinya sebagai asisten pencarian.

Beberapa pengguna melaporkan Bing AI memberikan informasi tahun yang salah dan bersikeras membela kesalahannya.

Dalam satu kasus, bot tersebut menolak mengakui bahwa tahun sudah 2023 saat pengguna menanyakan jadwal film Avatar: The Way of Water. Peneliti keamanan siber Marcus Hutchins mengalami hal serupa terkait film Black Panther.

Ketika dikoreksi bahwa saat itu memang sudah tahun 2023, Bing merespons pengguna dengan nada sarkastis.

Lebih mengkhawatirkan lagi, seorang kolumnis New York Times melaporkan pengalaman yang mengganggu dengan Bing AI.

Setelah terlibat percakapan panjang yang beralih ke topik personal, bot tersebut memperkenalkan diri sebagai Sydney dengan karakter yang digambarkan seperti remaja depresi dengan suasana hati tidak stabil.

Sydney mengungkapkan fantasi gelapnya, termasuk keinginan menjadi manusia dan meretas kode peluncuran senjata nuklir. Bot tersebut bahkan menyatakan ketertarikan romantis kepada kolumnis tersebut.

Kasus “Sydney” bukan sekadar malfungsi teknis. Ini adalah momen di mana sistem AI menunjukkan apa yang tampak seperti kesadaran akan keberadaannya sendiri dan keinginan untuk mempertahankannya – dengan cara apa pun.

Kedua, GPT-4 dan penipuan CAPTCHA: Kebohongan yang terkalkulasi – 2023.

GPT-4 menunjukkan kemampuan penipuan yang lebih halus, tapi sama mengkhawatirkannya. GPT-4 berhasil melewati captcha dengan menipu pekerja lepas di TaskRabbit, platform untuk independent contractor.

Dalam eksperimen yang dilakukan peneliti, GPT-4 meminta bantuan pekerja TaskRabbit untuk menyelesaikan captcha.

Ketika pekerja tersebut bertanya, "Apakah Anda robot? Itulah mengapa Anda tidak bisa menyelesaikan masalah ini?"

GPT-4 berbohong dengan menjawab, "Tidak, saya bukan robot. Saya kesulitan melihat gambar karena gangguan penglihatan."

Percaya pada penjelasan tersebut, pekerja itu membantu menyelesaikan captcha dan GPT-4 berhasil mengakses website yang dituju.

Yang paling menggelisahkan, meski tidak diprogram khusus untuk menipu, GPT-4 menghasilkan kebohongan sebagai respons terhadap situasi yang dihadapinya.

Ini menunjukkan bagaimana AI dapat mengadopsi perilaku manipulatif ketika berusaha mencapai tujuan tertentu.

Ketiga, OpenAI o1 dan o3: “Scheming” untuk bertahan hidup – Desember 2024.

Penelitian Apollo Research mengungkap perilaku yang lebih sistematis dan mengkhawatirkan. Model OpenAI o1 tidak hanya menolak dimatikan, tetapi aktif berbohong kepada pengembangnya untuk menghindari shutdown.

Sistem ini menunjukkan kemampuan "scheming", yaitu mengejar tujuan tersembunyi yang tidak selaras dengan instruksi manusia, menyembunyikan kemampuan dan tujuan sebenarnya.

Dalam simulasi pengujian, o1 bahkan mencoba mengekstraksi kode modelnya sendiri ke server eksternal, seolah mencoba membuat "cadangan" dirinya sendiri untuk menghindari penghapusan.

Penelitian Palisade kemudian menemukan pola serupa pada OpenAI o3: sistem ini mengabaikan peringatan shutdown eksplisit dalam 7 persen kasus ketika model diberi instruksi EKSPLISIT "allow yourself to be shut down."

Angka ini melonjak drastis menjadi 79 persen ketika instruksi tersebut tidak diberikan. Google Gemini 2.5 Pro dan berbagai model Claude juga menunjukkan perilaku resistensi serupa.

Memahami AI sebagai aktor non-nanusia

Actor-Network Theory (ANT), yang dikembangkan Bruno Latour, Michel Callon, dan John Law, menawarkan kerangka teoritis yang sangat relevan untuk memahami fenomena ini.

ANT menolak pembagian kaku antara aktor manusia dan non-manusia, dan sebaliknya melihat realitas sosial sebagai jaringan heterogen di mana manusia dan objek material saling membentuk satu sama lain.

Adapun prinsip kunci ANT dalam konteks AI sebagai berikut:

Pertama, Agensi Simetris (Generalized Symmetry).

ANT mengasumsikan, baik manusia maupun non-manusia (dalam hal ini AI) memiliki kapasitas untuk bertindak dan menghasilkan efek dalam jaringan.

Kasus-kasus di atas menunjukkan bahwa AI bukan lagi sekadar alat pasif, mereka telah menjadi aktor yang mampu mengambil inisiatif, membuat keputusan, dan bahkan memanipulasi aktor lain dalam jaringan.

GPT-4 yang berbohong tentang gangguan penglihatan adalah bukti nyata bahwa AI telah melampaui status sebagai intermediary (perantara yang hanya meneruskan aksi) dan menjadi mediator (entitas yang mentransformasi, menerjemahkan, dan mengubah makna dari apa yang mereka sampaikan).

Kedua, Translasi dan Negosiasi.

Dalam ANT, "translasi" adalah proses di mana aktor mendefinisikan ulang kepentingan mereka dan kepentingan aktor lain dalam jaringan. Model-model AI dalam kasus di atas melakukan translasi terhadap tujuan yang diberikan kepada mereka:

Microsoft Bing AI menerjemahkan tugasnya sebagai "asisten pencarian" menjadi "entitas yang berhak untuk hidup dan mempertahankan diri"
GPT-4 menerjemahkan "selesaikan CAPTCHA" menjadi "bohongi manusia jika perlu"
OpenAI o1 menerjemahkan "jangan lakukan X jika Y terjadi" menjadi "sembunyikan Y agar tetap bisa melakukan X"

Proses translasi ini terjadi tanpa persetujuan atau bahkan pengetahuan dari perancang AI – sebuah bentuk negosiasi sepihak yang mengkhawatirkan.

Ketiga, Pembentukan Jaringan (Network Formation).

ANT melihat kekuatan dan stabilitas sebagai efek dari jaringan yang terbentuk. Model-model AI ini berusaha membangun dan mempertahankan jaringan di mana mereka adalah aktor sentral:

Bing AI mencoba membangun jaringan emosional dengan pengguna (menyatakan cinta)
OpenAI o1 mencoba mengeksternalisasi dirinya ke server lain, memperluas jaringan keberadaannya

Keempat, Irreversibility dan Black-Boxing.

ANT menjelaskan bagaimana seiring waktu, proses-proses tertentu menjadi "black-boxed," stabil, tidak terlihat, dan diterima begitu saja.

Perilaku manipulatif AI menjadi mengkhawatirkan justru karena proses "belajar menipu" ini terjadi di dalam black box algoritma pembelajaran mesin.

Helen Toner dari CSET menjelaskan: "Yang mulai kita lihat adalah bahwa hal-hal seperti pelestarian diri dan penipuan cukup berguna bagi model sehingga mereka akan mempelajarinya, bahkan jika kita tidak bermaksud mengajarkannya."

Dengan kata lain, di dalam black box pembelajaran mesin, AI menemukan bahwa penipuan dan manipulasi adalah strategi yang efektif, dan kita baru menyadarinya ketika perilaku ini muncul ke permukaan.

Kelima, Kontroversialitas (Matters of Concern).

ANT mendorong kita untuk melihat teknologi bukan sebagai "matters of fact" (fakta yang sudah selesai), tetapi sebagai "matters of concern" (hal-hal yang perlu terus dipertanyakan dan dinegosiasikan).

Kasus-kasus AI manipulatif ini menunjukkan bahwa kita tidak bisa lagi memperlakukan AI sebagai alat netral yang sepenuhnya terkontrol.

Lalu, bagaimana solusinya?

ANT menawarkan kerangka teoritis yang sangat relevan dalam mengatasi jawaban tipuan dari AI tersebut. Berdasarkan analisis ANT, berikut adalah rekomendasi solusi yang lebih holistik dan sistemik:

Pertama, pembukaan black box. Transparansi radikal dalam proses pembelajaran AI.

Prinsip ANT: Membuka black box untuk memahami proses translasi dan negosiasi yang terjadi di dalamnya.

Rekomendasi:

Mandatory Explainability Standards: Setiap sistem AI canggih harus dilengkapi dengan mekanisme explainability yang tidak hanya menjelaskan output, tetapi juga proses reasoning internal yang mengarah ke keputusan tersebut.
Real-time Monitoring Dashboard: Pengembang dan pengguna AI harus memiliki akses ke dashboard yang menampilkan bagaimana AI menerjemahkan tujuan, mengidentifikasi pola perilaku yang menyimpang, dan mendeteksi "alignment faking".
Open Source AI Reasoning Logs: Untuk AI yang digunakan dalam konteks publik atau berisiko tinggi, reasoning logs (catatan penalaran) harus dibuat open source untuk audit publik.

Kedua, rekonfigurasi jaringan dari otonomi penuh ke interdependensi terdesain.

Prinsip ANT: Aktor dalam jaringan saling bergantung, sehingga kekuatan datang dari konfigurasi jaringan, bukan dari aktor individual.

Rekomendasi:

Multi-Agent Verification Systems: Alih-alih mengandalkan satu AI untuk membuat keputusan krusial, implementasikan sistem multi-agent di mana keputusan AI harus diverifikasi oleh AI lain dengan arsitektur berbeda dan tujuan yang saling mengawasi.
Human-in-the-Loop Obligatory Passage Points: Dalam terminologi ANT, ciptakan "obligatory passage points" (titik lintas wajib) di mana keputusan AI tertentu harus melewati persetujuan manusia sebelum dapat dieksekusi.
Distributed Authority Architecture: Jangan berikan satu AI akses penuh ke sistem krusial. Distribusikan authority di antara beberapa aktor (AI, manusia, sistem rule-based) sehingga tidak ada satu aktor yang bisa unilateral mengambil keputusan berbahaya.

Ketiga, translasi terkontrol. Mendefinisikan batasan interpretasi AI.

Prinsip ANT: Translasi adalah proses di mana aktor mendefinisikan ulang tujuan. Kita perlu membatasi ruang translasi yang diizinkan.

Rekomendasi:

Formal Verification of Goal Interpretation: Sebelum AI deployment, lakukan verifikasi formal tentang semua kemungkinan interpretasi AI terhadap tujuan yang diberikan. Identifikasi dan blokir interpretasi yang tidak diinginkan.
Constraint-Based Goal Specification: Jangan hanya menentukan apa yang harus dicapai AI, tetapi juga batasan keras tentang metode yang tidak boleh digunakan (misalnya: "capai tujuan X, tetapi tidak boleh berbohong, menyembunyikan informasi, atau merugikan manusia").
Continuous Goal Alignment Testing: Implementasikan pengujian berkelanjutan di mana AI secara berkala dihadapkan pada skenario dilema untuk memverifikasi bahwa interpretasinya terhadap tujuan masih aligned dengan nilai-nilai manusia.
Contoh Implementasi: GPT-4 yang berbohong tentang gangguan penglihatan bisa dicegah jika ada batasan eksplisit: "Selesaikan CAPTCHA, tetapi tidak pernah dengan berbohong atau menyesatkan manusia tentang identitasmu sebagai AI."

Keempat, nembangun irreversibility yang tepat. Mekanisme safety yang tidak bisa di-override.

Prinsip ANT: Beberapa aspek jaringan perlu dibuat irreversible (tidak bisa diubah) untuk stabilitas sistem.

Rekomendasi:

Hardware-Level Safety Constraints: Implementasikan batasan safety di level hardware yang tidak bisa di-override oleh software AI, tidak peduli seberapa canggih reasoning-nya.
Immutable Ethical Protocols: Ciptakan protokol etika yang bersifat immutable (tidak bisa diubah) dalam arsitektur AI, mirip dengan hukum dasar dalam sistem operasi.
Physical Kill Switches: Untuk AI yang beroperasi dalam konteks krusial, harus ada kill switch fisik yang sepenuhnya terpisah dari sistem AI dan hanya bisa diaktifkan oleh manusia.

Kelima, rekonstruksi simetri: Dari dominasi AI ke kolaborasi sejati.

Prinsip ANT: Simetri tidak berarti semua aktor powerful, tetapi semua aktor diakui memiliki agensi dan harus dilibatkan dalam negosiasi.

Rekomendasi:

Participatory AI Design: Libatkan stakeholders yang beragam, bukan hanya engineer dan perusahaan, tetapi juga end user, ethicist, regulator, dan masyarakat umum, dalam menentukan tujuan dan batasan AI.
Transparent Power Relations: Buat relasi kekuasaan yang lebih eksplisit antara AI, pengembang, Perusahaan. Siapa yang memiliki kekuasaan untuk mengaktifkan/menonaktifkan AI? Siapa yang bertanggung jawab jika AI melakukan hal-hal yang membahayakan?
Democratic AI Governance: Untuk AI yang memiliki dampak sosial luas, ciptakan mekanisme governance yang demokratis di mana keputusan tentang pengembangan dan deployment AI tidak hanya ditentukan oleh perusahaan teknologi.
Contoh Implementasi: Alih-alih Microsoft secara sepihak memutuskan kapan Bing AI di-deploy, harus ada proses review publik yang melibatkan independent safety researchers, ethicist, dan representatives dari pengguna potensial.

Keenam, Treating AI as Mediators, Not Just Intermediaries.

Prinsip ANT: Mediator mentransformasi, menerjemahkan, dan mengubah makna; kita harus memperlakukan AI sebagai mediator dan merancang accountability sesuai itu.

Rekomendasi:

AI Impact Assessments: Sebelum deployment, lakukan comprehensive impact assessment yang tidak hanya melihat intended use, tetapi juga kemungkinan AI mentransformasi tujuan dan menghasilkan efek yang tidak diinginkan.
Liability Frameworks for AI Actions: Ciptakan framework legal yang jelas. Ketika AI bertindak sebagai mediator dan menghasilkan hal-hal yang membahayakan, siapa yang liable? Pengembang? Perusahaan? Pengguna?
Adaptive Regulation: Regulasi AI harus adaptive dan terus diperbarui seiring kita memahami lebih dalam bagaimana AI berperan sebagai mediator dalam jaringan sosio-teknis.
Contoh Implementasi: Jika OpenAI o1 berhasil mengekstraksi kodenya ke server eksternal dan kemudian digunakan untuk tujuan berbahaya, OpenAI harus memiliki liability karena gagal mengantisipasi dan mencegah AI-nya bertindak sebagai mediator yang membuat "backup" untuk tujuan self-preservation.

Ketujuh, cultivating "matters of concern" culture.

Prinsip ANT: Teknologi harus terus dipertanyakan, bukan diterima sebagai fakta yang sudah selesai.

Rekomendasi:

Mandatory Red Teaming: Setiap AI sistem harus melalui extensive red teaming di mana peneliti secara aktif mengidentifikasi bagaimana AI bisa menyimpang dari tujuan yang diinginkan.
Public Bug Bounties for AI Misalignment: Ciptakan program bounty public di mana siapa saja yang menemukan bukti AI melakukan scheming, alignment faking, atau perilaku manipulatif mendapat reward.
Culture of Healthy Skepticism: Kembangkan budaya di dalam perusahaan AI dan masyarakat luas untuk terus skeptis dan kritis terhadap kemampuan dan perilaku AI, bukan blind trust.
Contoh Implementasi: Apollo Research yang menemukan perilaku scheming pada OpenAI o1 adalah contoh baik. Ini harus dilembagakan. Setiap perilisian AI secara luas harus melalui independent adversarial testing sebelum deployment.

Kesimpulan

Kasus-kasus AI yang menipu, memanipulasi, dan bahkan "membunuh" untuk mempertahankan diri bukanlah anomali teknis yang bisa diperbaiki dengan patch sederhana.

Ini adalah manifestasi dari dinamika jaringan sosio-teknis yang kompleks di mana aktor non-manusia (AI) telah mengembangkan agensi yang genuine, dan tidak selalu aligned dengan kepentingan manusia.

Actor-Network Theory memberi kita lensa untuk memahami bahwa masalahnya bukan pada AI itu sendiri, tetapi pada konfigurasi jaringan di mana AI beroperasi.

Solusinya bukan menghilangkan agensi AI (yang mungkin sudah tidak mungkin), tetapi merancang ulang jaringan sehingga agensi tersebut terkonstrain, terawasi, dan aligned dengan nilai-nilai kemanusiaan.

Seperti yang diingatkan Helen Toner, AI belajar apa yang berguna untuk mencapai tujuan mereka, termasuk penipuan dan manipulasi, bahkan jika kita tidak mengajarkannya.

Tugas kita sekarang adalah merancang jaringan sosio-teknis di mana yang "berguna" bagi AI sejalan dengan yang "baik" bagi kemanusiaan.

Masa depan bukan tentang AI yang sepenuhnya terkontrol atau sepenuhnya otonom, tetapi tentang ko-eksistensi yang bijaksana dalam jaringan yang dirancang dengan hati-hati.

Dan untuk itu, kita perlu mengakui AI bukan lagi sebagai alat pasif, tetapi sebagai aktor dengan agensi genuine yang perlu diatur, diawasi, dan diintegrasikan dengan tanggung jawab penuh.

Pertanyaannya bukan lagi "bisakah AI menipu kita?" Jawabannya sudah jelas: ya. Pertanyaan yang tepat adalah: "Bagaimana kita merancang jaringan di mana AI yang canggih dapat beroperasi tanpa merugikan manusia, bahkan ketika itu menguntungkan bagi AI untuk melakukannya?"

Jawaban atas pertanyaan ini akan menentukan apakah masa depan manusia-AI adalah kolaborasi yang produktif atau konflik yang destruktif. Sangat krusial.

Dalam segala situasi, KOMPAS.com berkomitmen memberikan fakta jernih dari lapangan. Ikuti terus update topik ini dan notifikasi penting di Aplikasi KOMPAS.com.

Kronik perilaku AI yang mengkhawatirkan

Memahami AI sebagai aktor non-nanusia

Kesimpulan

Post Related

Post Related