AI Ini Dites Menyamar Jadi Manusia, Dua di Antaranya Lolos Ujian

Kecerdasan buatan (artificial intelligence/AI) kian mampu menyamar sebagai manusia. Hal ini terbukti dalam studi yang dipublikasikan di jurnal PNAS, dari pengujian Turing Test yang melibatkan beberapa model AI dan dinyatakan lulus.

Turing Test diperkenalkan matematikawan Alan Turing pada tahun 1950. Tes ini menjadi sebuah pengujian yang selama puluhan tahun dianggap sebagai tolok ukur kemampuan mesin meniru perilaku manusia.

Dalam studi ini, para peneliti menguji empat model AI, mencakup dua model modern yakni GPT-4.5 dan Llama-3.1-405B, serta model dasar GPT-4o dan chatbot ringan Eliza dari tahun 1960-an.

Dalam pengujian, seseorang berkomunikasi melalui teks dengan dua pihak, yaitu manusia dan mesin, tanpa mengetahui identitas masing-masing.

Jika peserta tidak mampu membedakan mana manusia dan mana mesin, maka AI dianggap berhasil melewati pengujian tersebut.

Hasilnya secara umum menunjukkan bahwa model-model terbaru mampu meniru cara manusia berkomunikasi, khususnya dalam percakapan singkat, dengan tingkat keberhasilan yang tinggi.

Lebih spesifik, GPT-4.5 menjadi model dengan performa paling unggul dibanding lainnya. Model AI OpenAI init dinilai sebagai manusia sebanyak 73 persen dari seluruh interaksi yang dilakukan.

"Artinya, peserta lebih sering menandainya sebagai 'manusia' dibanding manusia yang sesungguhnya," kata para peneliti.

Sementara itu, Llama-3.1-405B memperoleh skor 56 persen. Hasil ini juga dianggap bahawa model AI bikinan Meta tersebut mampu menyamar sebagai manusia.

Sebaliknya, model yang lebih lawas menunjukkan hasil yang jauh lebih rendah. Eliza hanya dianggap manusia sebanyak 23 persen, sedangkan GPT-4o memperoleh angka 21 persen.

Menurut penulis studi, Cameron Jones, hasil tersebut menunjukkan bahwa model AI modern tidak hanya mampu menjawab pertanyaan atau menyajikan pengetahuan, tetapi juga pandai meniru manusia.

Kendati demikian, para peneliti menekankan bahwa AI saat ini belum sepenuhnya mampu melakukan hal tersebut secara mandiri.

Dalam eksperimen, semua model diberikan instruksi khusus untuk mengadopsi karakter tertentu dan meniru gaya komunikasi manusia.

Prompt tersebut sengaja dirancang agar AI melakukan kesalahan, menunjukkan keraguan, atau menggunakan humor seperti manusia pada umumnya.

Ketika instruksi tersebut dihilangkan, tingkat keberhasilan model turun cukup tajam.

GPT-4.5 misalnya, hanya memperoleh tingkat keberhasilan 36 persen tanpa prompt khusus. Sementara Llama-3.1-405B turun menjadi 38 persen.

Menurut salah satu penulis studi, Ben Bergen, hasil ini menunjukkan bahwa model AI saat ini memang memiliki kemampuan untuk tampil seperti manusia.

Namun, belum tentu mampu secara otomatis memahami bagaimana cara melakukannya tanpa arahan khusus, dihimpun KompasTekno dari The Week.

KOMPAS.com berkomitmen memberikan fakta jernih, tepercaya, dan berimbang. Dukung keberlanjutan jurnalisme jernih dan nikmati kenyamanan baca tanpa iklan melalui Membership. Gabung KOMPAS.com Plus sekarang