Trong bối cảnh hoạt động ngân hàng ngày càng phức tạp, công tác giám sát không thể dừng ở ‘hậu kiểm’ tuân thủ mà cần phải chuyển sang chủ động nhận diện rủi ro. Theo định hướng đó, Ngân hàng Nhà nước (NHNN) Khu vực 13 đã từng bước ứng dụng phân tích dữ liệu hiện đại, trong đó đáng chú ý là mô hình cảnh báo sớm rủi ro dựa trên học máy (Machine Learning) trong công tác giám sát an toàn vi mô đối với các chi nhánh ngân hàng thương mại trên địa bàn.
Hướng tới giám sát chủ động, dựa trên dữ liệu
Xuất phát từ yêu cầu nâng cao hiệu quả giám sát vi mô, mô hình được xây dựng với mục tiêu phân loại mức độ rủi ro hoạt động của các chi nhánh ngân hàng, đồng thời dự báo sớm các biến động tiêu cực, qua đó hỗ trợ cán bộ giám sát trong việc nhận diện, cảnh báo và đưa ra biện pháp giám sát phù hợp, kịp thời.
Các mô hình học máy được chia thành các loại chính như sau:
- Học có giám sát (Supervised Learning): là nhóm mô hình được huấn luyện trên dữ liệu đã gắn nhãn, trong đó đầu ra mong muốn đã được xác định trước. Nhóm này đặc biệt phù hợp cho các bài toán dự báo nợ xấu, chấm điểm tín dụng và ước lượng xác suất phân loại rủi ro trong ngân hàng.
- Học không giám sát (Unsupervised Learning): các mô hình thuộc nhóm này làm việc với dữ liệu không có nhãn, nhằm phát hiện cấu trúc tiềm ẩn hoặc các mẫu hành vi trong tập dữ liệu. Đây là công cụ quan trọng trong phân khúc khách hàng, phân tích hành vi giao dịch và phát hiện dấu hiệu bất thường.
- Học tăng cường (Reinforcement Learning): học tăng cường cho phép mô hình học thông qua quá trình tương tác với môi trường và cơ chế thưởng – phạt. Nhóm mô hình này mở ra tiềm năng ứng dụng trong tối ưu hóa danh mục đầu tư, quản trị thanh khoản và tự động hóa các quyết định điều hành trong ngân hàng.
Phạm vi ứng dụng tập trung vào các chi nhánh ngân hàng thương mại hoạt động trên địa bàn NHNN Khu vực 13, với dữ liệu được thu thập liên tục theo chu kỳ hàng tháng. Nguồn dữ liệu khai thác từ hệ thống báo cáo thống kê SG4 của NHNN, bảo đảm tính đầy đủ, thống nhất và độ tin cậy cao. Trên cơ sở dữ liệu thu thập, mô hình được xây dựng và kiểm nghiệm thì loại học có giám sát (Supervised Learning) là phù hợp và tối ưu bằng nhiều thuật toán phổ biến như Hồi quy Logistic, Random Forest, K-Nearest Neighbors (KNN), XGBoost,... Hiệu quả của mô hình được đánh giá thông qua các chỉ tiêu như độ chính xác, độ nhạy, độ đặc hiệu và chỉ số AUC-ROC thông qua bộ tiêu chí đánh giá được thiết lập sẵn, giúp tự động lựa chọn mô hình tối ưu nhất với đặc thù dữ liệu ngân hàng từng thời kỳ.
Quy trình xây dựng mô hình được thực hiện bài bản, từ khâu làm sạch, chuẩn hóa dữ liệu, đến trích xuất các biến có giá trị dự báo cao từ các bảng báo cáo quan trọng như: cân đối tài khoản kế toán, phân loại tài sản có, trích lập dự phòng rủi ro,... Dữ liệu được quản lý tập trung trên MySQL và tiền xử lý thông qua các thư viện chuyên dụng của ngôn ngữ lập trình Python[1], góp phần nâng cao chất lượng đầu vào cho mô hình.

Các thành phần của AI và các loại mô hình học máy
Cảnh báo sớm theo nhiều cấp độ và thời gian
Kết quả đầu ra của mô hình cho phép phân loại chi nhánh ngân hàng theo ba mức độ rủi ro: thấp, trung bình và cao, đồng thời đưa ra dự báo cho các khoảng thời gian 1 tháng, 3 tháng và 6 tháng kế tiếp. Trên cơ sở đó, cơ quan giám sát có thể sớm nhận diện các chi nhánh tiềm ẩn rủi ro, chủ động xây dựng phương án giám sát tăng cường, hạn chế nguy cơ phát sinh rủi ro hệ thống.
Đáng chú ý, mô hình được thiết kế theo hướng có khả năng học và cập nhật liên tục khi có dữ liệu mới, giúp nâng cao tính linh hoạt và khả năng thích ứng với sự thay đổi trong hoạt động ngân hàng.
Ưu thế của phương pháp học máy
So với các phương pháp giám sát truyền thống dựa nhiều vào giả định tuyến tính và kiểm định giả thuyết, mô hình học máy cho thấy nhiều ưu điểm như khả năng phát hiện mối quan hệ phi tuyến, xử lý dữ liệu đa chiều, và tối ưu hóa hiệu suất dự báo. Đây là hướng tiếp cận phù hợp với yêu cầu chuyển đổi số và hiện đại hóa công tác giám sát ngân hàng.

Công chức NHNN KV13 trao đổi nghiệp vụ giám sát
Trong thời gian tới, NHNN Khu vực 13 định hướng mở rộng và hoàn thiện mô hình, tích hợp kết quả vào các công cụ trực quan để hỗ trợ theo dõi xu hướng hoạt động của các chi nhánh; đồng thời nghiên cứu bổ sung thêm các nguồn thông tin như kết quả thanh tra, kiểm tra, dữ liệu tín dụng từ CIC. Bên cạnh đó, mô hình cũng có thể được xem xét áp dụng đối với Quỹ tín dụng nhân dân, góp phần nâng cao hiệu quả giám sát an toàn hoạt động trên địa bàn.
[1] Ngôn ngữ lập trình Python là một ngôn ngữ lập trình bậc cao, mã nguồn mở và đa nền tảng. Python được sử dụng rộng rãi để phát triển các ứng dụng web, phát triển phần mềm, khoa học dữ liệu và học máy
Phạm Minh Tú – Nguyễn Trí Nhân – Kim Thanh Long (NHNN KV13)