HO CHI MINH CITY JOURNAL OF MEDICINE
banner

Học máy dự báo ung thư tuyến tiền liệt: Kết quả ban đầu từ sinh thiết hợp nhất đàn hồi

MACHINE LEARNING FOR PROSTATE CANCER PREDICTION: PRELIMINARY RESULTS FROM ELASTIC FUSION-GUIDED BIOPSY

Tải

Tạp chí Y học Thành phố Hồ Chí Minh, 28(10):67-73. DOI 10.32895/hcjm.m.2025.10.09

Lượt xem: 74 Lượt tải PDF: 26

Tác giả

Trần Trung Thành1,2,3,*, Hoàng Long3, Trần Quốc Hoà3, Trần Vân Anh4, Taguelmimt Kamilia2, Filleron Thomas1, Bert Julien2, Malavaud Bernard1

1Viện nghiên cứu ung thư Toulouse - Oncopole, Cộng hoà Pháp
2Phòng thí nghiệm xử lý thông tin y tế LATIM, INSERM, Đại học Western Brittany, Cộng hoà Pháp
3Khoa Ngoại Tiết niệu, Bệnh viện Đại học Y Hà Nội, Hà Nội, Việt Nam
4Trường Đại học Y Hà Nội, Hà Nội, Việt Nam
Tóm tắt

Đặt vấn đề: Ung thư tuyến tiền liệt (UTTTL) là bệnh lý ác tính phổ biến ở nam giới, đòi hỏi phân tầng nguy cơ để tối ưu hóa chẩn đoán và giảm sinh thiết không cần thiết. Nghiên cứu này nhằm xây dựng mô hình học máy dự báo nguy cơ UTTTL dựa trên dữ liệu sinh thiết hợp nhất đàn hồi tại IUCT-Oncopole.

Đối tượng và phương pháp nghiên cứu: Nghiên cứu hồi cứu trên 1550 trường hợp nghi ngờ UTTTL từ 1/2018 đến 3/2023. Dữ liệu được chia thành tập huấn luyện (80%) và kiểm tra (20%). Các mô hình được triển khai gồm hồi quy logistic, RF, XGBoost và SVM, sử dụng các biến lâm sàng và dữ liệu cộng hưởng từ (điểm PI-RADS 2.1).

Kết quả: Tất cả mô hình cho kết quả phân loại tốt với AUC từ 0,80 đến 0,84. Mô hình logistic đạt AUC cao nhất (0,84) nhưng có số âm tính giả (FN) lớn (68). RF và XGBoost có FN thấp nhất (28), với tỷ lệ ung thư Gleason ≥ 7 thấp hơn. SVM đạt độ chính xác và hệ số Kappa cao nhất. Hồi quy logistic với chính quy hoá LASSO đơn giản, dễ giải thích, với hiệu suất khá và dễ triển khai.

Kết luận: Các mô hình học máy có tiềm năng hỗ trợ quyết định sinh thiết. Lựa chọn mô hình cần dựa trên bối cảnh, cân bằng giữa độ chính xác và mức độ dễ triển khai.

Từ khoá: ung thư tuyến tiền liệt; mô hình dự báo nguy cơ; sinh thiết tuyến tiền liệt; sinh thiết hợp nhất đàn hồi

Abstract

Backgrounds: Prostate cancer (PCa) is a common malignancy among men, requiring accurate risk stratification to optimize diagnostic pathways and reduce unnecessary biopsy. This study aimed to develop a machine learning model to predict the risk of PCa using data from elastography-guided fusion biopsies at IUCT-Oncopole.

Methods: A retrospective study was conducted on 1,550 patients with suspected PCa between January 2018 and March 2023. The dataset was split into a training set (80%) and a test set (20%). The implemented models included logistic regression, Random Forest (RF), XGBoost, and Support Vector Machine (SVM), using clinical variables and prostate MRI data (PI-RADS v2.1 scores).

Results: All models demonstrated good classification performance with area-under-curve (AUCs) values ranging from 0.80 to 0.84. Logistic regression achieved the highest AUC (0.84) but had the largest number of false negatives (FN = 68). RF and XGBoost had the lowest FN (28), with a lower proportion of Gleason ≥ 7 cancers in this group. SVM yielded the highest accuracy and Cohen’s Kappa score. Logistic regression with LASSO regularization offered reasonable performance, was simple to interpret, and easy to implement in clinical settings.

Conclusions: Machine learning models show great potential in guiding prostate biopsy decisions. Model selection should be context-dependent, balancing accuracy, interpretability, and ease of implementation.

Keywords: prostate cancer; risk prediction model; prostate biopsy; elastic fusion biopsy