XAI là gì?
Hầu hết các mô hình AI nói chung hay Deep Learning nói riêng luôn được người ta ví như là một chiếc hộp đen (black-box). Chúng ta xây dựng các mô hình với rất nhiều layer, từ convolution cho đến fully connected, sau đó sử dụng các optimizer như Adam, RMSprop,… (hoặc nói chung chung là gradient descent) để tối ưu mô hình, tức là tìm ra bộ trọng số sao cho hàm mất mát có giá trị nhỏ nhất có thể. Tuy nhiên, nếu ta nhìn lại mô hình và tìm cách giải thích là vì sao các mô hình hoạt động được tốt như vậy thì đây luôn là một câu hỏi khó, Việc đưa những chứng minh chặt chẽ, rõ ràng là không đề hơn giản. Từ đó, ta có một hướng nghiên cứu về các phương pháp giải thích sự hoạt động của các mô hình AI và lĩnh vực này được gọi là Explainable AI (XAI).
Vì sao chúng ta cần phải tìm cách giải thích các mô hình AI?
Ta lấy một ví dụ về mô hình chẩn đoán ung thư dạ dày dựa vào hình ảnh chụp nội soi được sử dụng ở các bệnh viện. Lúc này, tính chính xác của mô hình sẽ trở nên đặc biệt nghiêm trọng, nó có thể ảnh hưởng đến sức khỏe và cả tính mạng của bệnh nhân. Nếu mô hình chẩn đoán là ung thư thì ta cũng cần nó đưa ra những “chứng cứ” cho chẩn đoán đó, tất nhiên là chứng cứ phải đúng, mang tính thuyết phục cao thì mới chấp nhân được. Ngoài lĩnh vực y tế thì ta còn có các ví dụ khác như trong hệ thống bảo mật của ngân hàng,…
Khi AI càng được ứng dụng nhiều vào cuộc sống thì nhu cầu giải thích các mô hình AI cũng sẽ dần nhiều lên. Điều đó dẫn đến sự phát triển mạnh của XAI trong thời gian gần đây.
Diễn giải một mô hình AI
Khả năng diễn giải mô hình (interpretability) là mức độ hiểu biết của chúng ta về cách mô hình hoạt động, mà cụ thể hơn là về quá trình đưa ra dự đoán của mô hình. Ta có hai hướng tiếp cận chính đối với việc diễn giải mô hình là intrinsic và post-hoc.
Nguồn: Kemal Erdem
- Intrinsic (dựa vào bản chất của mô hình): Cách tiếp cận này thường dùng cho những mô hình thuộc nhóm white-box, đặc biệt là những mô hình Machine Learning như Linear Regresion, Decision Tree, SVM,… Đằng sau những mô hình đó là các lý thuyết toán chặt chẽ, ta có thể tìm được ngay công thức tính ra trọng số tối ưu của bài. Nói cách khác, khi chưa cần huấn luyện thì ta cũng có thể giải thích rằng mô hình sẽ hoạt động theo cách như thế này, như thế kia.
Decision Tree
Nguồn: javatpoint
SVM
Nguồn: Wikipedia
-
Post-hoc: Đây là cách tiếp cận chúng ta thường dùng khi diễn giải các mô hình Deep Learning, và đặc biệt là nó được tiến hành sau khi mô hình đã được huấn luyện với một bộ trọng số đủ tốt. Vì việc giải thích, chứng minh chặt chẽ, chính xác về quá trình hoạt động của các mô hình Deep Learning là rất khó khăn nên post-hoc là hướng tiếp cận được ưu tiên hơn. Trong post-hoc, ta có 2 cách diễn giải là model-agnostic và model-specific.
- Model-agnostic: Cách này nghĩa là chúng ta có thể áp dụng cùng một phương pháp để diễn giải cho toàn bộ các mô hình mà không cần quan tâm đến kiến trúc của chúng. Như vậy, ta chỉ dựa vào input và output của mô hình để đưa ra cách diễn giải.
- Model-specific: Với cách này thì tùy theo những mô hình, hay là họ các mô hình, mà ta sẽ đưa ra cách diễn giải tương ứng.
Ta có thể thấy rằng model-specific có thể dễ tiến hành hơn model-agnostic rất nhiều.
Những phương pháp trong XAI mà mình trình bày trong tương lai sẽ chủ yếu thuộc về hướng post-hoc.
Vì sao chúng ta bàn nhiều về khả năng diễn giải mô hình (interpretability) nhưng lĩnh vực này lại gọi là Explainable AI (thiên về khả năng giải thích mô hình)?
- 2 thuật ngữ diễn giải và giải thích có thể xem là mang ý nghĩa tương tự và có thể dùng thay thế cho nhau. Tuy nhiên, có một vài quan điểm cho rằng khả năng diễn giải là nói đến một tính chất bị động của mô hình và nó cần con người chúng ta can thiệp vào, còn khả năng giải thích là thiên về chủ động, tức là mô hình có thể tự giải thích cho chính nó.
- Ở đây, con người chúng ta đang tìm cách giải thích các mô hình, do đó ta ưu tiên gọi là diễn giải.
Đánh giá phương pháp XAI
Một vấn đề khác mà người ta thường quan tâm đến là cách đánh giá một phương pháp XAI, tức là xét xem cách diễn giải mô hình A đã thuyết phục, đã đúng hay chưa. Hiện tại, ta chưa có một độ đo nào để có thể so sánh các phương pháp với nhau. Phần lớn thì nó nằm ở các nhận xét của con người thông qua việc quan sát 😀