Tri Dao và FlashAttention – dấu ấn Việt trên bản đồ AI toàn cầu
Ít ai biết rằng đằng sau bước tiến của những mô hình ngôn ngữ lớn (LLM) như GPT-4 của OpenAI, LLaMA của Meta hay Mistral lại có đóng góp quan trọng từ một nhà nghiên cứu gốc Việt: Tri Dao.
Anh chính là tác giả của FlashAttention – thuật toán tối ưu hóa cơ chế Attention, được coi như “chuẩn mặc định” trong hầu hết LLM hiện nay.
Vấn đề của Self-Attention truyền thống
Trong kiến trúc Transformer, Attention giữ vai trò then chốt: giúp mô hình phân tích quan hệ giữa từng token với toàn bộ chuỗi.
Tuy nhiên, Self-Attention truyền thống có một nhược điểm lớn:
Phải tạo và lưu trữ ma trận so sánh khổng lồ giữa các token.
Với chuỗi hàng nghìn token, ma trận này cực kỳ tốn RAM và làm chậm tốc độ huấn luyện.
Hệ quả: mô hình càng lớn, chuỗi càng dài thì chi phí phần cứng càng khủng khiếp.
FlashAttention – cách tính mới, hiệu quả vượt trội
FlashAttention không thay đổi bản chất của Attention, mà cải tiến cách tính toán:
Chia nhỏ dữ liệu thành blocks thay vì xử lý toàn bộ một lần.
Với mỗi block: mô hình tính toán, lưu kết quả cục bộ rồi giải phóng bộ nhớ ngay.
Kết quả cuối cùng là sự ghép lại từ nhiều block, vẫn chính xác 100% như Attention chuẩn.
Điểm đặc biệt:
Tận dụng tối đa cache và băng thông GPU.
Bộ nhớ cần dùng giảm xuống tuyến tính theo số token.
Tốc độ xử lý tăng mạnh, đặc biệt hiệu quả với chuỗi cực dài.
Một so sánh dễ hình dung
Self-Attention truyền thống: giống như mở cả thư viện và trải hết sách ra bàn → vừa tốn chỗ, vừa chậm.
FlashAttention: chỉ mở từng kệ sách, đọc nhanh, ghi chú ngay tại chỗ → gọn gàng, nhanh, tiết kiệm.
Ý nghĩa toàn cầu – niềm tự hào Việt Nam
Nhờ ý tưởng “tối ưu ở tầng hệ thống”, FlashAttention đã thay đổi cách thế giới huấn luyện mô hình AI:
Giảm chi phí tính toán, giảm gánh nặng hạ tầng.
Mở ra khả năng xử lý chuỗi dài hơn, từ đó tạo ra những AI mạnh mẽ hơn.
Điều đặc biệt hơn cả: đứng sau bước tiến này chính là Tri Dao – một nhà nghiên cứu gốc Việt. Công trình của anh đã để lại dấu ấn Việt Nam trong lịch sử phát triển của trí tuệ nhân tạo hiện đại.
Kết
ChatGPT-5 hay các LLM ngày nay không chỉ là sản phẩm của những “ông lớn công nghệ”, mà còn ghi nhận đóng góp âm thầm nhưng mang tính bước ngoặt từ các nhà nghiên cứu trên toàn thế giới – trong đó có người Việt.
FlashAttention không chỉ là một thuật toán, mà còn là minh chứng cho trí tuệ Việt có thể tạo nên ảnh hưởng toàn cầu.