Chuyện gì sẽ xảy ra nếu bạn có thể tối ưu hóa một mô hình chỉ sau một đêm mà không cần chút kinh nghiệm ML (máy học) nào? Chuyện gì sẽ xảy ra nếu một tác nhân AI tự chạy hàng trăm thử nghiệm huấn luyện và chỉ giữ lại những cải tiến tốt nhất? Đó chính là ý tưởng đằng sau Autoresearch (Tự động hóa nghiên cứu). Bạn đưa cho một AI agent một đoạn mã huấn luyện (script) và một chỉ số đo lường (metric). Nó sẽ tự sửa mã nguồn, chạy thử nghiệm ngắn, kiểm tra xem chỉ số có cải thiện hay không, giữ lại hoặc loại bỏ, rồi lặp lại. Karpathy đã dùng cách này để tăng thêm 11% tốc độ huấn luyện GPT-2 của mình. Tobi Lütke, CEO của Shopify, đã huấn luyện một mô hình 0.8B (800 triệu tham số) qua đêm và đạt kết quả vượt xa mô hình 1.6B trước đó của ông.

Cách Autoresearch vận hành

Một AI agent sử dụng LLM có khả năng chỉnh sửa mã nguồn huấn luyện, chạy thử nghiệm ngắn, kiểm tra cải thiện chỉ số và lặp lại quy trình mà không cần sự can thiệp của con người.
Các ràng buộc thiết kế giúp quy trình này hiệu quả:
  • Ngân sách thời gian cố định 5 phút: Kết quả luôn có thể so sánh được bất kể agent thay đổi điều gì.
  • Phạm vi trong một tệp duy nhất: Agent chỉ chỉnh sửa tệp train.py. Phần chuẩn bị dữ liệu và đánh giá được khóa cố định.
  • Git đóng vai trò là bộ nhớ: Mỗi thử nghiệm là một lần commit. Agent đọc lịch sử các nhánh (branch) để lập kế hoạch cho thử nghiệm tiếp theo.
  • Lựa chọn Nhị phân Giữ/Bỏ: Không cần con người phán xét.
  • Tốc độ: Khoảng 12 thử nghiệm/giờ. Khoảng 100 thử nghiệm sau một đêm.

Hai thử nghiệm sớm

Cả hai ví dụ dưới đây đều ở quy mô nhỏ và mới bắt đầu. Các thiết lập còn tối giản, mô hình nhỏ và chưa phải là nghiên cứu có kiểm soát. Nhưng chúng cho thấy tương lai đang hướng về đâu.

1. Karpathy: 700 thử nghiệm trên nanochat

Karpathy đã áp dụng Autoresearch vào nanochat, bộ mã nguồn huấn luyện GPT-2 vốn đã được tinh chỉnh rất kỹ của ông. Trong hai ngày, agent đã chạy khoảng 700 thử nghiệm và tìm ra ~20 cải tiến thực sự. Khi kết hợp lại, thời gian huấn luyện GPT-2 giảm từ 2,02 xuống còn 1,80 giờ (nhanh hơn 11%). Agent đã nhận ra những thứ mà Karpathy bỏ sót:
  • QKNorm không tham số thiếu bộ nhân quy đổi (scaler multiplier), khiến sự chú ý (attention) bị quá phân tán.
  • Value Embeddings chưa được áp dụng cơ chế điều chuẩn (regularization).
  • Cửa sổ Banded attention quá thận trọng.
  • Các chỉ số AdamW betas, lịch trình suy giảm trọng số (weight decay) và khởi tạo đều chưa tối ưu.
Tất cả cải tiến này đều chuyển đổi tốt từ mô hình 12 tầng sang mô hình 24 tầng.

2. Tobi Lütke: Mở rộng truy vấn (Query Expansion) qua đêm

Tobi đã áp dụng mô hình này cho một dự án mở rộng truy vấn thuộc dự án mã nguồn mở QMD:
  1. Yêu cầu một AI agent đọc repo Autoresearch và xây dựng một phiên bản cho QMD. Lấy dữ liệu huấn luyện từ GitHub của Tobi.
  2. Đi ngủ.
  3. Thức dậy với một mô hình 0.8B đạt điểm cao hơn 19% so với mô hình 1.6B trước đó, sau 37 thử nghiệm trong 8 giờ.
Một mô hình nhỏ hơn đã đánh bại mô hình lớn gấp đôi. Sau đó, ông áp dụng quy trình tương tự cho mô hình xếp hạng (reranker) và cũng đánh bại mốc cơ sở (baseline).

Cách áp dụng phương pháp này

Vòng lặp này phụ thuộc hoàn toàn vào bộ đánh giá (eval) của bạn. Nếu chỉ số đo lường bị lừa (gamed) hoặc bị rò rỉ dữ liệu (leaky), mô hình sẽ trông có vẻ tốt trên giấy tờ nhưng thất bại khi chạy thực tế. Bộ đánh giá của bạn phải được tách biệt hoàn toàn — agent không bao giờ được chạm vào, huấn luyện hay nhìn thấy nó trong quá trình tối ưu hóa.
Bạn cần: một script huấn luyện mà agent có thể sửa, dữ liệu huấn luyện (dán nhãn thủ công hoặc dữ liệu tổng hợp), và một chỉ số phản ánh đúng những gì mô hình sẽ thực hiện trong thực tế.
Khi các thử nghiệm chạy nhanh gấp 100 lần so với con người, bộ đánh giá (eval) sẽ trở thành nút thắt cổ chai. Các bài kiểm tra (benchmark) tĩnh sẽ sớm bị bão hòa. Hãy xây dựng hệ thống đánh giá có thể tiến hóa, cập nhật từ dữ liệu thực tế và các trường hợp biên (edge cases) khó hơn.
Mô hình này phù hợp với: xếp hạng tìm kiếm, phân loại sản phẩm, trích xuất thực thể y tế (NER), chấm điểm gian lận, trích xuất hợp đồng, phân loại ý định (intent) và các tác vụ tương tự. Các mô hình nhỏ (Small models) hoạt động rất tốt — việc huấn luyện kết thúc trong vài phút và các cải tiến vẫn giữ nguyên giá trị khi bạn mở rộng quy mô. Các mô hình mở như Gemma là điểm bắt đầu tốt: đủ nhỏ để chạy trên một GPU đơn lẻ, hiệu suất cao cho các tác vụ thực tế và có giấy phép thương mại.

Khác biệt so với GEPA và các bộ tối ưu prompt

  • GEPA (Tiến hóa prompt Genetic-Pareto, ICLR 2026) tối ưu hóa prompt bằng cách sử dụng tiến hóa di truyền và phản tư (reflection). Nó hoạt động trên các mô hình và API cố định (frozen), nơi bạn không thể thay đổi trọng số.
  • Autoresearch tối ưu hóa trọng số (weights) — nó sửa đổi mã nguồn huấn luyện, kiến trúc và các siêu tham số (hyperparameters) để tạo ra một mô hình tốt hơn.

Đặc điểmGEPA / Tối ưu PromptAutoresearch / Tối ưu Trọng số
Cơ chếKhông cần huấn luyện lại mô hìnhCan thiệp và điều chỉnh trực tiếp mô hình
Đối tượngMô hình đóng, sử dụng qua APIHệ thống có hạ tầng huấn luyện và dữ liệu riêng
Đối với các đội ngũ đang xây dựng các SLM chuyên biệt cho từng lĩnh vực (domain SLM), cả hai tầng tối ưu này sẽ cộng hưởng để mang lại kết quả vượt trội.
Nguồn bài viết từ Tác giả Phil Schmid