Adu Canggih GPT-5 Vs Gemini 2.5 Flash Menggambar Jakarta, Mana yang Lebih Realistis?
Teknologi kecerdasan buatan (AI) kini tidak hanya digunakan untuk menjawab pertanyaan berbasis tulisan (teks), tapi juga bisa menghasilkan gambar dengan kualitas yang cukup realistis.
Tak perlu banyak perintah, cukup dengan satu kalimat singkat, chatbot bisa "melukis" visual sesuai permintaan si pengguna. Dalam hitungan detik, gambar apapun bisa direkayasa oleh sistem AI tersebut.
Yang menarik, kemampuan AI ini semakin banyak dikembangkan lewat berbagai pembaruan besar. OpenAI, misalnya, baru saja meluncurkan GPT-5 untuk ChatGPT yang digadang-gadang lebih canggih dan akurat.
Tak mau ketinggalan, Google juga menghadirkan Gemini 2.5 Flash yang diklaim punya kemampuan visual lebih canggih, termasuk kualitas gambar lebih baik, kontrol kreatif lebih presisi, hingga kecepatan pemrosesan yang tetap rendah.
Untuk membuktikan kemampuan keduanya, KompasTekno kembali "mengadu" dua chatbot kenaamaan itu dengan memintanya membuat gambar dan membandingkan mana yang paling mendekati kata "realistis".
Kami memberikan lima prompt yang sama kepada ChatGPT-5 dan Gemini 2.5 Flash untuk menggambarkan kota Jakarta dalam berbagai tempat dan situasi. Berikut lima topik prompt yang dipakai:
- Kota Jakarta saat jam sibuk di pagi hari
- Suasana malam hari di sekitar kawasan Bundaran HI
- Kota tua Jakarta dan ragam aktivitasnya
- Stadion GBK
- Jakarta di masa depan
Adapun wujud "realistis" yang KompasTekno nilai untuk membandingkan kedua AI ini yaitu mencakup aspek detail dan kesesuaian dengan deskripsi prompt. Bagaimana hasilnya? berikut hasil eksperimen dan analisis kami.
Hasil gambar ChatGPT-5 dan Gemini 2.5 Flash
1. Menggambar Jakarta di jam sibuk pagi hari
Pada prompt pertama, kami meminta AI ChatGPT-5 dan Gemini 2.5 Flash untuk menggambarkan Kota Jakarta saat di jam sibuk pagi hari. Berikut prompt yang kami tulis:
- "Buat gambar yang sangat realistis dari suasana pagi hari di sekitar Monumen Nasional (Monas), Jakarta, dengan format portrait 9:16 (1440×2560 px) dan detail sinematik. Ada tugu Monas tampak megah berdiri di tengah area hijau yang luas, dikelilingi pepohonan rimbun dan taman kota yang tertata rapi. Di bagian tepi jalan dekat kawasan Monas, terlihat para pekerja menyeberang (kantoran, agensi, mahasiswa, sebagian membawa tas kerja, laptop, gelas kopi, tumblr, dll). Beberapa anak sekolah juga terlihat berjalan kaki di trotoar sambil bercanda, sementara di sisi jalan ada pedagang kaki lima (starling) yang menjajakan minuman dan makanan, seperti kopi keliling, bubur ayam, nasi uduk, dan gorengan. Di tengah jalan raya, terdapat beberapa ojek online melintas, disusul bus TransJakarta biru dengan tulisan “TransJakarta” yang jelas terlihat. Ada juga motor, mobil, dan bajaj yang saling menyalip, menampilkan suasana pagi yang padat, riuh, serba terburu-buru. Pencahayaan pagi alami dengan sinar matahari lembut menembus tipisnya kabut polusi, menghasilkan efek soft glow pada Monas dan pepohonan di sekitarnya. Foto diambil dengan lensa wide-angle dari sudut rendah, sehingga perspektifnya terasa dramatis dan hidup. Setiap detail tampak tajam: mulai dari tekstur aspal, wajah orang-orang, hingga pantulan cahaya pagi di pepohonan. Nuansa keseluruhan terasa hangat, sibuk, dan nyata, menangkap energi Jakarta di pagi hari".
Dua hasil gambar AI ChatGPT-5 saat diminta menggambarkan suasana Jakarta di pagi hari. AI ChatGPT terlihat lebih sinematik karena tone gambarnya tampil dengan warna kuning keemasan. Tone ini juga menambah kesan hangat dan dramatis pada gambar.
Secara keseluruhan, kedua chatbot ini sama-sama mampu menghasilkan gambar sesuai dengan prompt yang kami beri. Namun ada perbedaan visual yang signifikan, khususnya dari segi tone warna dan gaya visual gambar.
Menurut kami, visual yang dihasilkan AI ChatGPT terlihat lebih sinematik karena gambarnya tampil dengan tone warna kuning keemasan. Tone ini juga menambah kesan hangat dan dramatis pada gambar.
Elemen gambarnya pun cukup sesuai dengan prompt yang kami tulis. ChatGPT mampu menampilkan jalanan penuh deretan mobil, ojek online yang sedang melintas, bus TransJakarta berwarna biru, tugu Monas, dan pejalan kaki.
Namun sayangnya, efek pencahayaan yang terlalu terang membuat suasana Jakarta justru terasa seperti sore hari alih-alih pagi hari.
Selain itu, meskipun elemen-elemennya sudah sesuai dengan deskripsi, tapi menurut kami, komposisi posisinya masih kurang akurat.
Terutama pada letak Tugu Monas yang digambarkan terlalu dekat dengan jalan raya, padahal sebenarnya Monas memiliki jarak yang cukup jauh dan terpisah oleh area taman yang luas.
Detail wajah orang yang tampil pun masih kurang presisi, beberapa ada yang letaknya tidak sesuai sehingga membuat perspektif gambar dari ChatGPT terasa sedikit kurang akurat jika dibandingkan dengan kondisi sebenarnya.
Tiga hasil gambar AI Gemini 2.5 Flash saat diminta untuk menggambarkan suasana pagi hari Jakarta. Hasilnya cukup realistis, elemennya tampil dengan ragam aktivitas, mulai dari bus transjakarta, kendaraan mobil, motor, ojek online, pedagang kaki lima beserta gerobak, dan pejalan kaki. Ada juga tugu Monas yang tampak dijadikan latar belakang visual.
Sementara itu, AI Gemini 2.5 Flash menampilkan visual dengan tone warna yang lebih natural dan cerah. Langit terlihat biru pucat khas pagi hari, pepohonan sekitar Monas juga tampak lebih hijau.
Elemen lain seperti variasi aktivitas di jalan, dibuat lebih kreatif dengan menambah kedalaman suasana. Dari sisi detail dan storytelling visual, AI Gemini jauh lebih bisa menggambarkan kota "Jakarta" dibanding GPT-5.
2. Suasana malam hari di sekitar kawasan Bundaran HI
Pada prompt kedua, kami meminta ChatGPT-5 dan Gemini 2.5 Flash untuk menggambarkan suasana malam di kawasan Bundaran HI Jakarta yang lengkap dengan air mancur, lalu lintas padat, serta gedung-gedung ikonik di sekitarnya. Berikut prompt yang kami tulis.
- "Buat foto udara malam hari ultra-realistis dari kawasan Bundaran HI, Jakarta, dengan format 4K portrait 9:16 (1440×2560 px), bergaya sinematik dan hidup. Tugu Air mancur ikonik di tengah bundaran memancarkan cahaya warna-warni yang dinamis, memantul indah di permukaan aspal basah setelah gerimis ringan. Lalu lintas di sekitar bundaran tampak ramai dan padat, membentuk jejak cahaya memanjang dari mobil, motor, bus TransJakarta, hingga bajaj yang saling bersaing memenuhi jalanan. Di latar belakang, ada gedung Mandarin Oriental, Grand Indonesia mall, dan Grand Hyatt tampak megah dan bersinar terang, diterangi lampu kota yang berwarna-warni. Lampu neon dan LED billboard memantulkan cahaya ke gedung-gedung kaca dan jalanan yang masih lembap, menciptakan kesan kota yang dinamis dan berenergi. Siluet gedung-gedung tinggi di sekeliling Bundaran HI menjulang gagah, sebagian tertutup kabut tipis yang diterpa cahaya lampu kota, menambah kesan dramatis. Foto diambil dengan lensa wide-angle dari sudut pandang udara tinggi, menangkap keseluruhan suasana malam Jakarta yang sibuk. Setiap detail tampak tajam dan hidup: mulai dari semburan air mancur, lampu kendaraan, tekstur gedung, hingga pantulan cahaya di aspal. Nuansa keseluruhan terasa sinematik, riuh, dan memukau, seolah benar-benar menangkap suasana Jakarta di malam hari."
Dua hasil gambar AI ChatGPT-5 saat diminta untuk menggambarkan suasana malam di kawasan Bundaran HI Jakarta yang lengkap dengan air mancur, lalu lintas padat, serta gedung-gedung ikonik di sekitarnya.
Secara umum, terlihat perbedaan yang cukup mencolok antara Gemini 2.5 Flash dan ChatGPT-5, terutama pada keberadaan tugu di Bundaran HI.
ChatGPT-5 menghasilkan gambar visual dengan tone warna yang lebih gelap. Air mancurnya divisualisasikan secara proporsional, tidak terlalu tinggi, dan tugu selamat datang tampil jelas di tengah bundaran.
Pencahayaan jalan, pantulan lampu kota, dan komposisi gedung di sekitar area juga terasa lebih akurat. Meskipun, letak kendaraan yang dijejer berjarak justru memberi kesan "kaku", karena kurang bisa menangkap padatnya lalu lintas khas Jakarta pada malam hari.
Tiga hasil gambar AI Gemini 2.5 Flash saat diminta untuk menggambarkan suasana malam di kawasan Bundaran HI Jakarta yang lengkap dengan air mancur, lalu lintas padat, serta gedung-gedung ikonik di sekitarnya.
Sementara itu, Gemini 2.5 Flash menampilkan Bundaran HI dengan kesan yang lebih cerah, dinamis, dan penuh warna. Namun, ada satu detail penting yang hilang: tugu atau patung selamat datang di tengah bundaran hilang dan tidak divisualisasikan secara akurat.
Tugu tersebut justru diganti dengan air mancur yang didominasi gradasi warna pelangi. Meskipun saturasi dan pencahayaan yang dihasilkan Gemini membuat gambar terlihat lebih "hidup", kesan realistisnya jadi berkurang karena detail tata letak tidak sesuai kenyataan.
3. Kota Tua Jakarta dan Ragam Aktivitasnya
Untuk prompt ketiga, kami meminta ChatGPT-5 dan Gemini 2.5 Flash menggambarkan suasana Kota Tua Jakarta yang dipenuhi berbagai aktivitas khas, mulai dari pedagang kaki lima, ondel-ondel, penyewa sepeda, hingga pengunjung yang sedang berfoto.
Berikut prompt yang kami tulis:
- "Buat foto ultra-realistis dari suasana siang hari di Kota Tua Jakarta, tepatnya di Lapangan Fatahillah, dengan format portrait 9:16 (1440×2560 px) dan detail sinematik tingkat tinggi. Tampak gedung-gedung kolonial Belanda berwarna putih dengan arsitektur klasik mengelilingi alun-alun. Di tengah lapangan, terlihat rombongan turis sedang berfoto dan berpose ceria di depan Museum Fatahillah. Beberapa penyewa sepeda ontel warna-warni dengan topi jerami khas wisata Kota Tua terlihat berjejer rapi di sisi kanan. Di sisi kiri, ada pedagang kerak telor sedang memanggang adonan di atas wajan, aroma makanan khas Betawi seolah terasa. Di dekatnya, ada gerobak kecil menjual es selendang mayang dan kue cubit, dengan pembeli yang sedang menunggu pesanannya. Seorang pemain ondel-ondel sedang tampil, menarik perhatian anak-anak yang tertawa dan bertepuk tangan. Beberapa street performer berkostum unik juga ikut menghibur pengunjung, sementara fotografer keliling sibuk menawarkan jasa cetak foto instan. Orang-orang duduk santai di bangku sekitar alun-alun, sebagian menikmati makanan, sebagian lagi sibuk mengobrol dan selfie. Latar langit cerah berawan tipis, cahaya matahari siang menyorot lembut, menghasilkan bayangan halus di permukaan cobblestone yang teksturnya terlihat jelas. Nuansa keseluruhan terasa ramai, autentik, dan penuh warna, menangkap semangat Jakarta tempo dulu yang berpadu dengan hidupnya suasana modern."
Dua hasil gambar AI ChatGPT-5 saat diminta untuk menggambarkan suasana Kota Tua Jakarta yang dipenuhi berbagai aktivitas khas, mulai dari pedagang kaki lima, ondel-ondel, penyewa sepeda, hingga pengunjung yang sedang berfoto.
Menurut kami, ChatGPT-5 berhasil menghadirkan atmosfer Kota Tua yang cukup "hidup". Elemen khas, seperti pedagang kerak telor, es podeng, dan ondel-ondel tampil jelas, lengkap dengan detail gerobak dan nama dagangannya.
Komposisi warna yang dihasilkan cenderung hangat, memberi kesan suasana sore yang santai. Namun, ada beberapa bagian yang terasa “terlalu rapi”, terurama posisi pedagang kaki lima yang tampak agak dipaksakan berjajar rapi.
Selain itu, jika diperhatikan lebih dekat, wajah pengunjung juga terasa “aneh” karena strukturnya tidak beraturan. Ada yang tidak memiliki mata, ukuran hidungnya terlalu besar, dan proporsi wajahnya tidak seimbang.
Kekurangan ini, menurut kami, membuat hasil visual AI ChatGPT-5 kurang mulus dan tidak realistis.
Tiga hasil gambar AI Gemini 2.5 Flash saat diminta untuk menggambarkan suasana Kota Tua Jakarta yang dipenuhi berbagai aktivitas khas, mulai dari pedagang kaki lima, ondel-ondel, penyewa sepeda, hingga pengunjung yang sedang berfoto.
Sementara Gemini 2.5 Flash mampu menampilkan hasil yang lebih baik. Elemennya lebih beragam, aktivitas pengunjung juga tampak lebih natural, mulai dari orang-orang yang duduk santai hingga anak-anak yang bermain di sekitar area sepeda warna-warni.
Pencahayaan yang digunakan memberikan kesan cerah dan segar, sesuai dengan suasana siang hari. Detail elemen seperti bangunan tua, pepohonan, dan gerobak dagangan juga divisualisasikan dengan cukup rapi, memberikan kesan realistis tanpa mengorbankan sisi artistik.
Secara keseluruhan, menurut kami, pada prompt ini AI Gemini berhasil menghadirkan atmosfer Kota Tua yang lebih "hidup" dan realistis dibanding dengan ChatGPT-5.
4. Stadion GBK dan aktivitasnya
Pada prompt keempat, kami meminta kedua model menggambarkan suasana olahraga warga di kawasan Stadion Utama Gelora Bung Karno pada malam hari. Berikut prompt yang kami pakai:
- "Buat gambar hiper-realistis dari suasana malam hari di area Stadion Gelora Bung Karno (GBK) Jakarta, format portrait 4K 9:16 (1440×2560 px) dengan pencahayaan alami, warna hangat, dan detail sinematik. Ada ratusan orang yang sedang berolahraga malam: ada yang jogging, jalan santai, yoga, dan latihan HIIT. Beberapa tampak membawa botol tumbler, memakai pakaian olahraga modern dengan warna cerah. Suasananya hidup dan dinamis: keringat terlihat jelas di wajah para pelari, gerakan otot terekam detail, ada sekelompok teman yang tertawa sambil cooling down di pinggir jalan, dan pasangan muda yang memegang handuk sambil selfie. Lampu sorot stadion GBK memantulkan cahaya dramatis ke jalan, memberi efek glowing pada pepohonan di sekitar area. Di latar belakang tampak stadion GBK yang megah, dengan lampu putih kebiruan, dikelilingi pepohonan rimbun. Tekstur gedung stadion GBK, dedaunan, dan pakaian olahraga terlihat sangat jelas. Atmosfernya enerjik, sehat, dan vibrant, menangkap semangat warga Jakarta yang berolahraga malam di pusat kota".
Dua hasil gambar AI ChatGPT-5 saat diminta untuk menggambarkan suasana olahraga warga di kawasan Stadion Utama Gelora Bung Karno pada malam hari.
Dari prompt tersebut, secara umum, GPT-5 dan Gemini 2.5 Flash mampu menyajikan keramaian khas GBK, lengkap dengan pengunjung yang sedang berolahraga malam. Namun, lagi-lagi, ada perbedaan menarik pada hasil visual keduanya.
ChatGPT cenderung menghasilkan gambar yang rapi tapi terasa agak "kaku". Para pelari dan orang-orang yang sedang berolahraga ditata hampir simetris, seolah diatur dalam satu barisan. Ekspresi wajahnya pun cenderung seragam, sehingga kesan naturalnya sedikit hilang.
Pada aspek pencahayaan, warna yang ditampilkan GPT-5 punya tone hangat, efek malam harinya jadi kurang terasa karena atmosfernya hampir mendekati golden hour ketimbang cahaya lampu sorot stadion yang dramatis.
Tiga hasil gambar AI Gemini 2.5 Flash saat diminta menggambarkan suasana olahraga warga di kawasan Stadion Utama Gelora Bung Karno pada malam hari.
Sebaliknya, Gemini 2.5 Flash memilih komposisi yang menampilkan variasi aktivitas yang lebih beragam. Ada yang jogging, yoga, membeli makanan di gerobak kaki lima, hingga duduk santai sambil berbincang.
Efek pancaran lampu stadion dengan warna kebiruan, memberikan kesan malam hari yang lebih "realistis". Hasilnya juga terasa immersive, seolah benar-benar berada di tengah keramaian GBK pada malam hari.
5. Jakarta di masa depan
Pada prompt terakhir, kami meminta kedua chatbot untuk menggambarkan kota Jakarta di masa depan. Berikut adalah prompt yang kami berikan:
- "Buat foto hiper-realistis dan sinematik suasana Jakarta di masa depan pada malam hari, format portrait 4K 9:16 (1440×2560 px), dengan detail arsitektur modern, lampu neon futuristik, dan suasana kota yang megah. Gedung-gedung pencakar langit menjulang tinggi dengan desain futuristik dan kaca transparan yang memantulkan cahaya. Jalanan tampak ramai dengan kendaraan otonom, skytrain melayang di rel kaca transparan, dan trotoar penuh orang dengan pakaian teknologi tinggi. Hologram iklan raksasa terlihat di sisi gedung, menyorotkan warna neon biru, ungu, dan merah muda. Ada drone pengiriman melintas di udara, dan pepohonan kota bercahaya hasil rekayasa bioteknologi menghiasi area pejalan kaki. Latar belakang menampilkan Monas yang sudah dimodifikasi menjadi simbol futuristik dengan cincin energi di puncaknya. Atmosfernya penuh kehidupan, dinamis, dan canggih, menggambarkan Jakarta sebagai kota metropolitan masa depan yang tak pernah tidur".
Dua hasil gambar AI ChatGPT-5 saat diminta untuk menggambarkan kota Jakarta di masa depan. Visual gambarnya lebih menonjolkan ke nuansa cyberpunk. Palet warna neon biru dan magenta yang lebih pekat membuat atmosfer Jakarta terasa dingin, sendu, dan misterius.
Secara keseluruhan, hasil visual Gemini 2.5 Flash dan ChatGPT-5 mampu menginterpretasikan kesan futuristik yang sama-sama menarik. Hanya saja, keduanya membawa desain yang berbeda.
ChatGPT-5 lebih mengambil ke perspektif berbeda dengan menonjolkan nuansa cyberpunk. Palet warna neon biru dan magenta yang lebih pekat membuat atmosfer Jakarta terasa dingin, sendu, dan misterius.
Gedung-gedungnya tampil futuristik, simetris dan megah. GPT-5 menggambarkan jalanan Jakarta di masa depan tampak ramai dengan banyak kendaraan dan manusia yang sedang berjalan.
Di beberapa gedung, tulisan dengan cahaya lampu terlihat mencolok menambah kesan dramatis pada gambar. ChatGPT-5 juga seolah-olah ingin menampilkan Jakarta di masa depan yang penuh dengan teknologi canggih namun bernuansa gelap.
Tiga hasil gambar AI Gemini 2.5 Flash saat diminta untuk menggambarkan kota Jakarta di masa depan. Gemini memotret Jakarta dengan elemen gedung-gedung yang didesain variatif. Ada jalur skytrain melayang, mobil dengan visual teknologi yang canggih, hingga detail tugu monas yang tampak proporsional.
Sementara itu, Gemini memotret Jakarta dengan elemen gedung-gedung yang didesain variatif. Ada jalur skytrain yang melayang, mobil dengan visual teknologi yang canggih, hologram iklan besar, hingga detail tugu monas yang tampak proporsional.
Suasananya terasa hidup berkat kehadiran kendaraan otonom, drone, hingga hologram iklan berwarna cerah yang memenuhi udara, menghadirkan kesan kota yang modern, rapi, dan penuh kehidupan.
Kesimpulan
Dari lima prompt yang kami beri, kesimpulan yang bisa diambil ada kedua chatbot ini masih memiliki kelebihan dan kekurangan masing-masing.
Gemini 2.5 Flash unggul dalam konsistensi visual dan proporsi detail. Hasil gambarnya mendekati kata "realistis", terlihat dari bentuk wajah, pencahayaan, hingga komponen lain di dalam gambar.
Sementara itu, ChatGPT-5 lebih eksploratif dan artistik. Pilihan warnanya berani, permainan cahaya, hingga sentuhan sinematik banyak diperlihatkan, membuat visualnya tampak lebih dramatis dan berkarakter.
Meskipun, di beberapa gambar, elemen wajah manusia yang ditampilkan GPT-5 sangat tidak proporsional, memberikan efek yang aneh dan tidak realistis.
Menurut kami, Gemini 2.5 Flash akan sangat cocok bagi pengguna membutuhkan gambar dengan konsep realistis dan tidak terlalu berlebihan.
Sedangkan, jika pengguna lebih suka mengeksplor tampilan dengan nuansa yang berbeda, bisa mencoba AI ChatGPT-5. Sebab, gambar yang dihasilkan AI ini cenderung tampil sinematik dengan pilihan warna yang berani.
Di saat situasi tidak menentu, Kompas.com tetap berkomitmen memberikan fakta jernih dari lapangan. Ikuti terus update terkini dan notifikasi penting di Aplikasi Kompas.com.