Giải Mã Ý Nghĩ Của Bác Sĩ Hình Ảnh Bằng AI Nhằm Tăng Độ Tin Cậy Trong Ứng Dụng Lâm Sàng

STATIONARY

Giải Mã Ý Nghĩ Của Bác Sĩ Hình Ảnh Bằng AI Nhằm Tăng Độ Tin Cậy Trong Ứng Dụng Lâm Sàng

·4 min read

Tổng quan

Bài báo giới thiệu một hệ thống sử dụng mô hình Large Multimodal Model (LMM) để thu hẹp khoảng cách giữa trí tuệ nhân tạo (AI) và quá trình nhận thức của bác sĩ X-quang. Mục tiêu là làm cho các hệ thống AI trở nên dễ hiểu hơn và phù hợp với cách suy nghĩ của con người, từ đó tăng cường độ tin cậy và khả năng áp dụng trong chẩn đoán y khoa. Hệ thống này gồm hai mô-đun chính:

  • Temporally Grounded Intention Detection (TGID): Phát hiện ý định của bác sĩ thông qua phân tích video bản đồ nhiệt từ ánh mắt và báo cáo chẩn đoán.
  • Region Extraction (RE): Trích xuất vùng quan tâm phù hợp với ý định, cung cấp hình ảnh phản ánh chính xác sự tập trung chẩn đoán của bác sĩ. Nghiên cứu đã áp dụng mô hình Dense Video Captioning (DVC) trong lĩnh vực y tế, đánh dấu lần đầu tiên nhiệm vụ "phát hiện ý định của bác sĩ" được nghiên cứu. Bài báo sử dụng các bộ dữ liệu REFLACX và EGD-CXR, đạt độ chính xác cao trong dự đoán thời gian và vùng bất thường y khoa, đặc biệt là ở các trường hợp phức tạp như cardiomegaly và edema.

Phương pháp và Điểm mới

Phương pháp sử dụng

  • TGID (Temporally Grounded Intention Detection): Sử dụng LMM để phân tích video bản đồ nhiệt từ ánh mắt kết hợp với báo cáo chẩn đoán nhằm phát hiện ý định của bác sĩ theo thời gian.
  • RE (Region Extraction): Sử dụng kết quả từ TGID để trích xuất vùng quan tâm trong ảnh X-quang.

Điểm mới của nghiên cứu

  • Lần đầu tiên áp dụng DVC trong lĩnh vực y tế: Kết hợp DVC với dữ liệu y khoa để phát hiện ý định của bác sĩ.
  • Reverse-engineering ý định của bác sĩ: Hệ thống không chỉ dự đoán mà còn giải thích cách bác sĩ suy nghĩ và đưa ra chẩn đoán.
  • Tăng cường độ tin cậy và ứng dụng lâm sàng: Bằng cách minh bạch hóa quá trình suy luận của AI, giúp bác sĩ dễ dàng tin tưởng và ứng dụng hơn.

Thí nghiệm và Kết quả

Thiết lập Thí nghiệm

  • Dataset: Sử dụng hai bộ dữ liệu chính:
    • REFLACX: 2344 trường hợp với dữ liệu ánh mắt và báo cáo y khoa của 5 bác sĩ có kinh nghiệm khác nhau.
    • EGD-CXR: 1071 hình ảnh X-quang từ một bác sĩ có kinh nghiệm cao.
  • Fine-tuning và Đánh giá: Fine-tuning trên bộ dữ liệu EGD-CXR và REFLACX. Đánh giá bằng các chỉ số:
    • Time Overlap Score: Đánh giá độ chính xác về thời gian ý định.
    • Intersection over Union (IoU): Đo lường độ chính xác của vùng bất thường được phát hiện.

Kết quả và Quan sát

  • Hiệu suất cao trong dự đoán ý định và vùng bất thường: Đạt điểm cao trong cả Time Overlap Score và IoU.
  • Độ chính xác cao ở các trường hợp phức tạp: Đặc biệt chính xác với các bất thường như cardiomegaly và edema.
  • So sánh với mô hình SoTA: Hiệu suất vượt trội hơn so với mô hình DVC truyền thống (PDVC).

Hướng phát triển trong tương lai

  • Mở rộng cho dữ liệu CT và MRI: Do tính phức tạp cao hơn, việc áp dụng hệ thống này vào CT và MRI sẽ giúp giải mã tốt hơn quá trình nhận thức của bác sĩ.
  • Nâng cao interpretability: Tiếp tục phát triển các mô-đun giúp bác sĩ dễ hiểu và dễ áp dụng hơn.
  • Hỗ trợ đào tạo và chỉnh sửa lỗi: Tích hợp trong giáo dục y khoa, giúp bác sĩ học cách suy nghĩ và chẩn đoán hiệu quả hơn.

Tài liệu tham khảo

logo
DeepViet

DeepViet mang lại các khóa học AI từ cơ bản đến nâng cao, kết hợp giữa lý thuyết và thực hành, trang bị cho bạn nền tảng vững chắc để theo đuổi đam mê trong lĩnh vực AI.

DeepViet