Kekurangan Chatbot AI Sebagai Penyedia Informasi Kesehatan

Banyak orang saat ini menjadikan chatbot kecerdasan buatan (AI) sebagai sumber informasi kesehatan. Namun, sebaiknya jangan langsung percaya begitu saja pada jawaban yang diberikan.

Sebuah studi yang baru-baru ini diterbitkan memberikan gambaran yang suram tentang apakah chatbot AI sebenarnya mampu memberikan nasihat medis kepada masyarakat umum.

Dalam eksperimen tersebut ditemukan bahwa chatbot tidak lebih baik dibandingkan mesin pencari seperti Google, yang selama ini juga dinilai sebagai sumber informasi kesehatan yang masih memiliki banyak keterbatasan, dalam membantu pengguna mengarah pada diagnosis yang tepat atau menentukan langkah yang sebaiknya diambil selanjutnya.

Bahkan, teknologi AI ini juga dinilai memiliki risiko tersendiri karena terkadang menyajikan informasi yang keliru atau memberikan saran yang berubah drastis hanya karena perbedaan kecil dalam cara pertanyaan diajukan.

Para peneliti menyimpulkan bahwa tidak ada satu pun model yang dievaluasi dalam eksperimen tersebut yang “siap digunakan dalam pelayanan langsung kepada pasien.”

Studi ini juga disebut sebagai penelitian acak (randomised study) pertama yang secara khusus menguji kemampuan chatbot AI dalam memberikan saran medis kepada publik.

Dalam tiga tahun sejak chatbot AI tersedia untuk umum, pertanyaan tentang kesehatan menjadi salah satu topik paling umum yang ditanyakan pengguna kepada mereka.

Beberapa dokter mengaku sering menemui pasien yang telah berkonsultasi dengan AI untuk mendapatkan opini pertama.

Produk AI khusus untuk informasi kesehatan

Survei menemukan bahwa sekitar satu dari enam orang dewasa menggunakan chatbot untuk mencari informasi kesehatan setidaknya sekali sebulan.

Perusahaan teknologi AI besar, termasuk Amazon dan OpenAI, telah meluncurkan produk yang secara khusus ditujukan untuk menjawab pertanyaan kesehatan dari pengguna.

Kehadiran alat-alat memicu antusiasme yang besar karena alasan yang baik. Sejumlah model AI diketahui mampu lulus ujian lisensi kedokteran serta bahkan mengungguli dokter dalam menjawab sejumlah kasus diagnostik yang kompleks.

Namun, Adam Mahdi, profesor di Oxford Internet Institute sekaligus penulis senior studi terbaru yang dipublikasikan di Nature Medicine, menilai bahwa pertanyaan medis yang bersifat rapi dan sederhana seperti dalam pengujian tersebut kemungkinan bukan gambaran yang akurat tentang seberapa baik teknologi itu bekerja ketika digunakan oleh pasien di dunia nyata.

"Kedokteran tidak seperti itu. Kedokteran itu berantakan, tidak lengkap, dan bersifat stokastik (ada unsur acak),” kata Mahdi.

Ia dan rekan-rekannya menyiapkan sebuah eksperimen. Lebih dari 1.200 peserta Inggris, yang sebagian besar tidak memiliki pelatihan medis, diberi skenario medis terperinci, lengkap dengan gejala, detail gaya hidup umum, dan riwayat medis.

Para peneliti meminta peserta untuk mengobrol dengan bot AI untuk mengetahui langkah selanjutnya yang tepat, seperti apakah harus memanggil ambulans atau mengobati sendiri di rumah. Mereka menguji chatbot yang tersedia secara komersial seperti ChatGPT dari OpenAI dan Llama dari Meta.

Para peneliti menemukan bahwa para peserta hanya memilih langkah tindakan yang “benar”, kurang dari separuh waktu. Selain itu, pengguna hanya mampu mengidentifikasi kondisi medis yang tepat, seperti batu empedu atau perdarahan subaraknoid, sekitar 34 persen dari waktu yang diuji.

Hasil tersebut tidak lebih baik dibandingkan kelompok kontrol, yakni peserta yang diminta melakukan tugas yang sama dengan menggunakan metode pencarian yang biasa mereka gunakan di rumah, yang sebagian besar dilakukan melalui mesin pencari seperti Google.

Pentingnya memberi pertanyaan yang tepat

Meski demikian, pakar AI menilai eksperimen ini tidak sepenuhnya mencerminkan bagaimana chatbot menjawab pertanyaan medis di dunia nyata.

"Para peserta dalam penelitian tersebut diminta menanyakan skenario yang dibuat-buat, yang kemungkinan berbeda dengan cara seseorang berinteraksi dengan chatbot ketika membahas kondisi kesehatan mereka sendiri", ujar Ethan Goh, yang memimpin AI Research and Science Evaluation Network di Stanford University.

Dan karena perusahaan AI rutin meluncurkan versi baru dari model-model tersebut, chatbot yang digunakan peserta setahun yang lalu selama eksperimen kemungkinan berbeda dari model yang digunakan pengguna saat ini.

Andrew Bean, seorang mahasiswa pascasarjana di Oxford dan penulis utama makalah tersebut, mengatakan bahwa beban untuk merancang pertanyaan yang sempurna seharusnya tidak selalu dibebankan kepada pengguna.

Ia mengatakan bahwa chatbot seharusnya mengajukan pertanyaan lanjutan, mirip dengan cara dokter mengumpulkan informasi dari pasien.

“Apakah tanggung jawab pengguna untuk mengetahui gejala mana yang harus ditonjolkan, atau sebagian tanggung jawab model untuk mengetahui apa yang harus ditanyakan?” tanyanya.

Ini adalah area yang sedang diupayakan oleh perusahaan teknologi untuk ditingkatkan. , menurut data yang diberikan oleh juru bicara OpenAI, model ChatGPT saat ini kira-kira enam kali lebih mungkin untuk mengajukan pertanyaan lanjutan dibandingkan versi sebelumnya

KOMPAS.com berkomitmen memberikan fakta jernih, tepercaya, dan berimbang. Dukung keberlanjutan jurnalisme jernih dan nikmati kenyamanan baca tanpa iklan melalui Membership. Gabung KOMPAS.com Plus sekarang