[AI trong giáo dục] Một đề thi AI đi qua bao nhiêu bước trước khi tới tay giáo viên?
Bạn gõ một câu: "Tạo cho tôi đề kiểm tra giữa kỳ môn Toán lớp 9, 60 phút." Một lúc sau, màn hình hiện ra một đề hoàn chỉnh - có ma trận, có đáp án, có lời giải. Nhìn thì như một cú bấm nút. Thực ra, đằng sau nó là cả một quy trình, nơi AI tự lập kế hoạch, tự soạn, tự giải lại chính đề mình vừa ra để bắt lỗi của mình, tự sửa, rồi mới giao. Hãy lần theo hành trình đó - và bạn sẽ hiểu vì sao "AI ra đề" thật ra không phải một công cụ, mà là một nền tảng.
Trong giáo dục, lỗi đáng sợ nhất của một AI ra đề không phải là sai chính tả. Đó là một câu hỏi trông hoàn hảo nhưng có đáp án sai. Một mô hình ngôn ngữ được sinh ra để trả lời cho trôi chảy, không phải để đảm bảo đúng - và "trôi chảy nhưng sai" mới là kẻ thù thật sự khi đề đến tay học sinh. Một lời gọi model đơn lẻ không thể tự bảo chứng tính đúng. Đó là lý do AutoExam.ai không xây một công cụ một-bước, mà xây một workflow nhiều bước có kiểm chứng. Đây là các chặng của nó.
Bước 1 - Hiểu yêu cầu và hỏi lại cho rõ
Giáo viên gõ yêu cầu bằng ngôn ngữ tự nhiên, và gần như luôn thiếu thông tin: chưa nói rõ khung chương trình, tỉ lệ nhận biết - vận dụng, có cần phần đọc hiểu hay nghe không. Bước đầu tiên của hệ thống không phải là soạn ngay, mà là hiểu ý định và hỏi lại - đúng những câu một giáo viên giàu kinh nghiệm sẽ hỏi. Bài toán kỹ thuật ở đây là intent detection và "smart intake": biết khi nào đủ thông tin để chạy, khi nào phải hỏi thêm, và hỏi sao cho không làm phiền. Hỏi sai trọng tâm thì cả workflow phía sau đi chệch.
Bước 2 - Lập ma trận đề
Trước khi viết bất kỳ câu hỏi nào, hệ thống dựng một bản kế hoạch có cấu trúc: bao nhiêu câu, phân bổ theo chủ đề/kỹ năng/độ khó theo khung năng lực (Bloom), dạng câu hỏi nào, phần đọc - nghe ra sao. Đây là bước planning của một agent - và nó đặc biệt khó vì mỗi khung đánh giá là một bộ luật riêng: ma trận theo chuẩn của Bộ GD-ĐT khác hoàn toàn cấu trúc 4 kỹ năng của IELTS, lại khác định dạng từng section của SAT hay Cambridge. Nền tảng phải "biết luật" của từng khung, rồi sinh ra một spec mà toàn bộ các bước sau phải tuân theo.
Bước 3 - Truy xuất và bám chương trình
Một đề tốt phải khớp với đúng những gì học sinh đã học, không phải kiến thức chung chung trên Internet. Ở bước này hệ thống truy xuất học liệu của chương trình (cơ chế kiểu RAG) để neo nội dung câu hỏi vào đúng bài, đúng khối lớp. Bài toán kỹ thuật: import và chuẩn hóa chương trình, xử lý những chỗ học liệu mô tả mơ hồ, và đảm bảo độ "phủ" - không để cả đề dồn vào vài bài quen thuộc.
Bước 4 - Sinh câu hỏi (dưới dạng có cấu trúc)
Đến đây model mới thực sự viết. Nhưng nó không trả về một đoạn văn xuôi - nó phải trả về dữ liệu có cấu trúc: thân câu hỏi, đáp án đúng, các phương án nhiễu, lời giải, rubric chấm. Ràng buộc đầu ra theo cấu trúc (structured output) là một lớp kỹ thuật riêng: phải buộc model trả về đúng định dạng máy đọc được, mọi câu đều hợp lệ, phương án nhiễu phải đủ "đánh lừa" để kiểm tra tư duy thật chứ không để học sinh đoán mò, và không câu nào trùng cấu trúc câu nào.
Bước 5 - Tự kiểm chứng: AI giải lại chính đề của mình
Đây là trái tim của cả workflow, và là thứ phân biệt một nền tảng với một công cụ. Sau khi soạn xong, hệ thống cho AI tự đóng vai học sinh giải lại toàn bộ đề mình vừa tạo - như một giám khảo thứ hai soi lại giám khảo thứ nhất. Nếu AI tự giải mà ra đáp án khác với đáp án đã gắn, hoặc thấy câu hỏi có thể hiểu theo nhiều cách, hoặc độ khó lệch khỏi ma trận → câu đó bị đánh dấu để loại hoặc sửa.
Chính bước này bắt được loại lỗi nguy hiểm nhất: câu "trông hoàn hảo nhưng sai". Không một lời gọi model đơn lẻ nào làm được điều này, vì model không tự nghi ngờ chính nó - phải có một vòng lặp được thiết kế để buộc nó kiểm chứng. Đây đúng là bản chất agentic: tạo → tự phản biện → kết luận.

Bước 6 - Bù và vá phần thiếu
Khi bước 5 loại bớt câu lỗi, đề sẽ hụt so với ma trận. Hệ thống không chốt một đề thiếu - nó sinh bù đúng số câu còn thiếu, đúng chủ đề/độ khó, lại đưa qua vòng kiểm chứng, và tránh trùng với phần đã có. Ở đây còn là bài toán độ bền: một lượt sinh đề là tác vụ kéo dài, gọi model nhiều lần; phải có cơ chế phục hồi khi một nhịp bị lỗi giữa chừng để cả quy trình không sụp đổ và bắt người dùng làm lại từ đầu.
Bước 7 - Hoàn thiện và dựng đề
Bước cuối ráp mọi thứ thành một đề dùng được: render công thức Toán/Lý/Hóa (LaTeX) cho hiển thị đúng, sinh audio cho phần nghe bằng giọng đọc tổng hợp (TTS), tạo hình minh họa cho câu hỏi cần hình (Sinh, Địa…), và định dạng theo đúng khung đã chọn. Một đề mới chính thức "tới tay giáo viên" sau khi đi hết bảy chặng này.
Vậy đó mới chỉ là một workflow
Điều đáng nói: tất cả những gì ở trên chỉ là workflow ra đề. Trên cùng nền tảng đó còn nhiều workflow khác chạy bằng cùng hạ tầng - chấm tự luận tiếng Việt (bài toán riêng về tính nhất quán giữa hàng nghìn bài và khả năng giải thích vì sao trừ điểm), phân tích kết quả theo từng kỹ năng, AI Teacher Bot kèm học sinh sau giờ học, và số hóa kho đề cũ thành ngân hàng câu hỏi có cấu trúc.
Đỡ phía sau tất cả là vài lớp ít ai thấy: một bộ eval để bắt lỗi mỗi khi đổi prompt hay đổi model trước khi nó kịp ảnh hưởng người dùng; một gateway không khóa cứng vào một mô hình duy nhất; và một data layer giúp nền tảng càng dùng càng hiểu học sinh hơn. Đây mới là lúc "nền tảng" khác với "công cụ": công cụ làm xong một việc rồi quên; nền tảng giữ lại trạng thái, dữ liệu và quy trình để lần sau làm tốt hơn.
Vì sao đây là sân chơi của dân kỹ thuật thật
Không bước nào trong bảy bước trên có sẵn một tutorial trên YouTube. Tự kiểm chứng, bám chương trình, ràng buộc cấu trúc đầu ra, phục hồi tác vụ dài, điều phối đa model - đó là những bài toán hệ thống, không phải mẹo viết prompt. Và nhiều bài trong số đó vẫn còn đang mở: làm sao kiểm chứng nhanh hơn mà vẫn rẻ, làm sao chấm tự luận vừa nhất quán vừa giải thích được, làm sao một nền tảng phục vụ cùng lúc chương trình Việt Nam lẫn các khung quốc tế mà không vỡ.

Đây là loại công việc hiếm: ở giai đoạn còn đang xây từng viên gạch, kỹ sư tham gia không phải để hiện thực hóa một bản spec cho sẵn, mà để cùng quyết định bài toán nào cần giải và giải bằng kiến trúc nào - thứ mà nhiều kỹ sư AI ở công ty lớn, vốn quen làm một mắt xích, khó tìm lại được.
Nếu đây là kiểu bài toán khiến bạn hứng thú - agentic workflow, tự kiểm chứng, hạ tầng eval, điều phối đa model - AutoExam.ai đang tuyển kỹ sư AI và backend. Liên hệ qua email: [email protected].
Kết
Vậy một đề thi AI đi qua bao nhiêu bước? Con số không quan trọng bằng điều nó hé lộ: đằng sau một câu lệnh tưởng như đơn giản là cả một quy trình tự vận hành và tự sửa lỗi. Đó chính là ranh giới giữa "AI tạo đề" và một nền tảng đánh giá - và cũng là ranh giới giữa một tính năng dùng tạm và một hệ thống đáng tin để giao vào tay người thầy.