Bài 2 - Data Masking: Khi BCTC nội bộ trở thành dữ liệu huấn luyện AI

Nếu bạn hoặc team của bạn đang dùng ChatGPT bản Free hay Plus mà chưa bao giờ mở mục Settings ra kiểm tra, câu trả lời gần như chắc chắn là: Không.

Đây không phải trường hợp cá biệt. Tôi gặp pattern này lặp đi lặp lại ở nhiều doanh nghiệp: CFO upload BCTC nội bộ chưa công bố. Finance Manager paste nguyên cả hợp đồng M&A đang đàm phán. Chuyên viên ném nguyên bảng phân tích biên lợi nhuận theo từng dòng sản phẩm. Tất cả đẩy thẳng lên ChatGPT bản Free hoặc Plus mà không kiểm tra một cấu hình (Setting) nào.

Vấn đề nằm ở đâu?

ChatGPT bản Free và Plus mặc định bật tính năng dùng dữ liệu hội thoại của bạn để cải thiện mô hình. Nghĩa là mọi hồ sơ bạn nhập vào, nếu bạn không chủ động tắt, đều có thể trở thành “nguyên liệu huấn luyện”.

Claude cũng tương tự. Từ tháng 8/2025, Anthropic thay đổi chính sách cho phép sử dụng dữ liệu hội thoại của người dùng Free, Pro và Max để huấn luyện mô hình. Khi khung thông báo hiện lên, nút bật (toggle) chia sẻ dữ liệu đã ở trạng thái “On” sẵn. Nếu bạn quen tay bấm Accept mà không để ý kiểm tra, bạn đã chính thức cấp quyền cho Anthropic dùng dữ liệu của mình.

Về thời gian lưu trữ dữ liệu, có một điểm rất nhiều người hiểu nhầm:

ChatGPT lưu hội thoại của bạn vô thời hạn cho đến khi bạn chủ động xóa. Sau khi xóa, dữ liệu vẫn nằm trên server thêm 30 ngày trước khi bị hủy hoàn toàn.
Với Claude, nếu bạn không bật chức năng training thì dữ liệu được giữ 30 ngày. Nếu bật, thời hạn lưu trữ lên tới 5 năm.

Lưu ý: Việc tắt training chỉ nhằm ngăn dữ liệu không bị dùng để “dạy” mô hình, chứ không có nghĩa là file của bạn sẽ biến mất khỏi server của họ ngay lập tức.

Lớp bảo vệ 1: Tắt tính năng huấn luyện mô hình ngay lập tức

Cả hai nền tảng đều cho phép bạn tắt tính năng này. Nhưng bạn phải tự tìm, tự tắt. Đa số người tôi gặp chưa bao giờ mở mục này ra xem, mặc dù nó chỉ tốn đúng 30 giây:

Trên ChatGPT: Bấm vào Avatar/Profile góc trái -> chọn Settings -> chọn Data Controls -> tắt “Improve the model for everyone”.
Trên Claude: Bấm vào Avatar/Profile -> chọn Settings -> chọn Privacy -> tắt “Help improve Claude”.

Lớp bảo vệ 2: Kỹ thuật “Mặt nạ dữ liệu” (Data Masking)

Tắt training mới chỉ là lớp bảo vệ đầu tiên. Lớp thứ hai quan trọng hơn gấp bội, đặc biệt bắt buộc với dân làm tài chính, đó là trang bị “mặt nạ dữ liệu” trước khi đưa vào AI.

Nguyên tắc rất đơn giản:

Thay tên: Thay tên công ty thật bằng “Công ty A”, “Công ty B”. Thay tên lãnh đạo bằng ký hiệu ẩn danh.
Nhân hệ số bảo mật: Với số liệu tài chính, hãy nhân toàn bộ con số với một hệ số cố định (ví dụ 1.5 lần hoặc 0.7 lần) trước khi upload.

Tại sao cách này lại đỉnh cao? Vì AI vẫn có thể phân tích đúng cấu trúc, đúng tỷ lệ, đúng xu hướng do tất cả các chỉ số tương đối (biên lợi nhuận % gộp, tỷ lệ nợ/vốn, tốc độ tăng trưởng YoY) đều được bảo toàn. Nhưng con số tuyệt đối thì hoàn toàn mù mờ so với thực tế.

Cụ thể, doanh thu 500 tỷ thành 750 tỷ, chi phí 350 tỷ thành 525 tỷ. Biên lợi nhuận gộp tính ra vẫn chuẩn xác là 30%. Ai nhìn vào kết quả output cũng không thể truy ngược lại công ty thật.

Cảnh báo: Kỹ thuật nhân hệ số chỉ hiệu quả khi bạn áp dụng đồng nhất cho toàn bộ hệ thống số liệu. Nếu nhân doanh thu và chi phí nhưng quên nhân số lượng nhân viên hay số lượng đơn vị bán ra, các chỉ số phái sinh như “doanh thu trên đầu người” sẽ bị sai lệch và AI sẽ cho kết luận lệch. Ngoài ra, quy mô, cơ cấu chi phí đặc thù của ngành vẫn có thể bị nhận dạng nếu bạn không kết hợp làm thật sạch bước 1 (ẩn danh hóa tên và lĩnh vực ngách).

Giải pháp đường dài cho Doanh nghiệp

Nếu tổ chức của bạn dùng AI thường xuyên cho dữ liệu cực kỳ nhạy cảm, giải pháp bền vững hơn là chuyển sang mua các gói Business hoặc Enterprise. ChatGPT Business (từ 25 USD/người/tháng) và Claude for Work đều có hợp đồng cam kết pháp lý không dùng dữ liệu kinh doanh để huấn luyện mô hình. APIs của cả hai nền tảng này cũng mặc định không training.

Nhưng tôi hiểu thực tế, phần lớn doanh nghiệp SME tại Việt Nam đang dùng gói cá nhân, thậm chí dùng chung bản Free. Việc chuyển ngay sang gói doanh nghiệp đắt đỏ không phải lúc nào cũng khả thi trong ngắn hạn.

Vì vậy, tối thiểu, hãy thực thi 3 checklist này ngay hôm nay:

Mở Settings và Tắt Training Data trên cả ChatGPT và Claude của toàn bộ nhân sự trong phòng ban. Mỗi cái 30 giây, làm một lần là xong.
Quy ước “Mặt nạ dữ liệu” cho team: Nghiêm cấm upload tên thật, số liệu thật mà không qua bước nhân hệ số đồng nhất.
Cấm tuyệt đối: Với các siêu dữ liệu nhạy cảm (Hợp đồng M&A, BCTC chưa nộp, bảng lương nhân sự), cân nhắc không đưa lên Cloud AI ở bất kỳ hình thức nào.

AI là công cụ khuếch đại năng lực. Nhưng nếu không kiểm soát đầu vào, nó cũng sẽ khuếch đại rủi ro bảo mật mà bạn không lường trước được.

Sources

Bài 2 - Data Masking: Khi BCTC nội bộ trở thành dữ liệu huấn luyện AITrang 1

Bài 2 - Data Masking: Khi BCTC nội bộ trở thành dữ liệu huấn luyện AI

Vấn đề nằm ở đâu?

Lớp bảo vệ 1: Tắt tính năng huấn luyện mô hình ngay lập tức

Lớp bảo vệ 2: Kỹ thuật “Mặt nạ dữ liệu” (Data Masking)

Giải pháp đường dài cho Doanh nghiệp

Vì vậy, tối thiểu, hãy thực thi 3 checklist này ngay hôm nay:

Sources

Bài viết liên quan

Bài 3 - Domain Expertise × AI: Phương trình mà người trẻ giỏi công nghệ không có

Bài 1 - Custom Instructions: Bước Không trước mọi câu hỏi

Bài 5 - Context Window: Cái giá của cuộc trò chuyện không bao giờ kết thúc