AI SAMA PANDAI MENDIAGNOSIS PENYAKIT SEPERTI MANUSIA

Tinjauan sistematis dan meta-analisis pertama dari jenisnya menemukan bahwa kecerdasan buatan (AI) sama bagusnya dalam mendiagnosis penyakit berdasarkan citra medis seperti profesional perawatan kesehatan. Namun, studi yang lebih berkualitas diperlukan.

AI dan profesional perawatan kesehatan sama-sama efektif dalam mendiagnosis penyakit berdasarkan pencitraan medis, menurut penelitian baru.

Sebuah artikel baru membahas bukti yang ada dalam upaya untuk menentukan apakah AI dapat mendiagnosis penyakit seefektif tenaga kesehatan.

Sepengetahuan penulis - yaitu, tim besar peneliti yang dipimpin oleh Profesor Alastair Denniston dari University Hospitals Birmingham NHS Foundation Trust di Inggris Raya - ini adalah tinjauan sistematis pertama yang membandingkan kinerja AI dengan profesional medis untuk semua penyakit.

Prof. Denniston dan tim mencari beberapa database medis untuk semua studi yang diterbitkan antara tanggal 1 Januari 2012 hingga 6 Juni 2019. Tim tersebut mempublikasikan hasil analisis mereka di jurnal Kesehatan Digital Lancet.

AI setara dengan profesional perawatan kesehatan

Para peneliti mencari studi yang membandingkan efektivitas diagnostik algoritma pembelajaran mendalam dengan profesional perawatan kesehatan ketika mereka membuat diagnosis berdasarkan pencitraan medis.

Mereka memeriksa kualitas pelaporan dalam studi tersebut, nilai klinisnya, dan desain studi tersebut.

Selain itu, ketika menilai kinerja diagnostik AI dibandingkan dengan profesional perawatan kesehatan, para peneliti melihat dua hasil: spesifisitas dan sensitivitas.

"Sensitivitas" menentukan kemungkinan bahwa alat diagnostik mendapatkan hasil positif pada orang yang mengidap penyakit tersebut. Kekhususan mengacu pada keakuratan tes diagnostik, yang melengkapi ukuran sensitivitas.

Proses seleksi hanya menghasilkan 14 studi yang kualitasnya cukup tinggi untuk dimasukkan ke dalam analisis. Prof. Denniston menjelaskan, "Kami meninjau lebih dari 20.500 artikel, tetapi kurang dari 1% di antaranya cukup kuat dalam desain dan pelaporannya sehingga peninjau independen memiliki keyakinan tinggi dalam klaim mereka."

“Terlebih lagi, hanya 25 studi yang memvalidasi model AI secara eksternal (menggunakan gambar medis dari populasi yang berbeda), dan hanya 14 studi yang membandingkan kinerja AI dan profesional kesehatan menggunakan sampel tes yang sama.”

“Dalam beberapa studi berkualitas tinggi, kami menemukan bahwa pembelajaran mendalam memang dapat mendeteksi penyakit mulai dari kanker hingga penyakit mata seakurat ahli kesehatan. Tetapi penting untuk dicatat bahwa AI tidak secara substansial mengungguli diagnosis manusia. "
Prof. Alastair Denniston

Lebih khusus lagi, analisis menemukan bahwa AI dapat mendiagnosis penyakit dengan benar di 87% kasus, sedangkan deteksi oleh profesional perawatan kesehatan menghasilkan tingkat akurasi 86%. Kekhususan untuk algoritma pembelajaran mendalam adalah 93%, dibandingkan dengan manusia yang 91%.

Bias dapat membesar-besarkan kinerja AI

Prof Denniston dan rekannya juga memperhatikan beberapa keterbatasan yang mereka temukan dalam studi yang meneliti kinerja diagnostik AI.

Pertama, sebagian besar studi memeriksa akurasi diagnostik AI dan profesional perawatan kesehatan dalam pengaturan terisolasi yang tidak meniru praktik klinis biasa - misalnya, merampas informasi klinis tambahan dari dokter yang biasanya mereka perlukan untuk membuat diagnosis.

Kedua, kata para peneliti, sebagian besar studi hanya membandingkan kumpulan data, sedangkan penelitian berkualitas tinggi dalam performa diagnostik memerlukan perbandingan seperti itu pada manusia.

Selain itu, semua studi mengalami pelaporan yang buruk, kata para penulis, dengan analisis yang tidak memperhitungkan informasi yang hilang dari kumpulan data tersebut. “Sebagian besar [studi] tidak melaporkan apakah ada data yang hilang, berapa proporsi yang diwakili ini, dan bagaimana data yang hilang ditangani dalam analisis,” tulis para penulis.

Batasan tambahan termasuk terminologi yang tidak konsisten, tidak secara jelas menetapkan ambang batas untuk analisis sensitivitas dan spesifisitas, dan kurangnya validasi di luar sampel.

“Ada ketegangan yang melekat antara keinginan untuk menggunakan diagnostik baru yang berpotensi menyelamatkan hidup dan keharusan untuk mengembangkan bukti berkualitas tinggi dengan cara yang dapat bermanfaat bagi pasien dan sistem kesehatan dalam praktik klinis,” komentar penulis pertama Dr. Xiaoxuan Liu dari Universitas Birmingham.

“Pelajaran utama dari pekerjaan kami adalah bahwa dalam AI - seperti bagian lain dari perawatan kesehatan - desain studi yang baik itu penting. Tanpanya, Anda dapat dengan mudah menimbulkan bias yang mengganggu hasil Anda. Bias ini dapat menyebabkan klaim yang berlebihan atas kinerja yang baik untuk alat AI yang tidak diterjemahkan ke dalam dunia nyata. ”
Dr. Xiaoxuan Liu

“Bukti tentang bagaimana algoritma AI akan mengubah hasil pasien perlu datang dari perbandingan dengan tes diagnostik alternatif dalam uji coba terkontrol secara acak,” tambah rekan penulis Dr. Livia Faes dari Moorfields Eye Hospital, London, Inggris.

“Sejauh ini, hampir tidak ada uji coba di mana keputusan diagnostik yang dibuat oleh algoritme AI ditindaklanjuti untuk melihat apa yang kemudian terjadi pada hasil yang benar-benar penting bagi pasien, seperti perawatan tepat waktu, waktu untuk keluar dari rumah sakit, atau bahkan tingkat kelangsungan hidup.”

none: pendengaran - tuli penyakit Parkinson suplemen