Bài viết này cung cấp một cái nhìn tổng quan cấp cao về hơn 50 bộ tiêu chuẩn đánh giá hiện đại, được nhóm thành bốn danh mục chính: Gọi hàm & Sử dụng công cụ (1), Trợ lý tổng quát & Suy luận (2), Lập trình & Kỹ thuật phần mềm (3), và Tương tác với máy tính (4).
Bản tóm tắt này cũng có sẵn dưới dạng một kho lưu trữ riêng biệt trên Github. Tôi rất mong muốn giữ cho danh sách này luôn được cập nhật và mở rộng khi có các bộ tiêu chuẩn mới xuất hiện. Vui lòng tạo PR (Yêu cầu kéo) hoặc Issue (Vấn đề).

Gọi hàm & Sử dụng công cụ (Function Calling & Tool Use)

BFCL (Berkeley Function Calling Leaderboard)

BFCL là một bộ tiêu chuẩn toàn diện được thiết kế để đánh giá khả năng gọi hàm (còn gọi là sử dụng công cụ) của các Mô hình ngôn ngữ lớn (LLM) trong nhiều bối cảnh thực tế khác nhau. Nó đánh giá các mô hình qua nhiều kịch bản, bao gồm tương tác nối tiếp (đơn giản), song song và đa lượt; đồng thời đánh giá các khả năng của agent như suy luận trong môi trường đa bước có trạng thái, bộ nhớ, tìm kiếm web và độ nhạy với định dạng.

ToolBench

Một bộ tiêu chuẩn quy mô khổng lồ được thiết kế để đánh giá và hỗ trợ các mô hình ngôn ngữ lớn trong việc làm chủ hơn 16.000 API RESTful thực tế. Nó hoạt động như một tập dữ liệu tinh chỉnh chỉ dẫn (instruction-tuning) cho việc sử dụng công cụ, được tạo tự động bằng ChatGPT để tăng cường khả năng sử dụng công cụ tổng quát của LLM.

ComplexFuncBench

Một bộ tiêu chuẩn được thiết kế đặc biệt để đánh giá việc gọi hàm phức tạp trong LLM. Nó giải quyết các kịch bản thách thức trên năm khía cạnh chính: gọi hàm đa bước trong một lượt, gọi hàm liên quan đến các ràng buộc do người dùng cung cấp, suy luận giá trị tham số, gọi hàm với giá trị tham số dài và các cuộc gọi yêu cầu độ dài ngữ cảnh lên tới 128k.

τ-Bench / Tau-Bench

Một bộ tiêu chuẩn hội thoại được thiết kế để kiểm tra các AI agent trong các kịch bản thực tế năng động và mở. Nó đánh giá cụ thể khả năng tương tác của agent với người dùng mô phỏng và các API lập trình, trong khi vẫn tuân thủ nghiêm ngặt các chính sách đặc thù của từng lĩnh vực và duy trì hành vi nhất quán, với các lĩnh vực cụ thể là thương mại điện tử và đặt vé máy bay.

Composio Function Calling Benchmark

Kiểm tra khả năng của LLM trong việc gọi hàm chính xác dựa trên các câu lệnh được đưa ra. Nó bao gồm 50 bài toán gọi hàm, mỗi bài được thiết kế để giải quyết bằng cách sử dụng một trong tám lược đồ (schema) hàm được lấy cảm hứng từ cấu trúc API thực tế từ các điểm cuối tích hợp của ClickUp.
Liên kết: GitHub

API-Bank: Bộ tiêu chuẩn toàn diện cho LLM tăng cường công cụ

Đánh giá khả năng của agent trong việc lập kế hoạch gọi API từng bước, truy xuất các API có liên quan và thực thi chính xác các cuộc gọi API để đáp ứng nhu cầu của con người dựa trên việc hiểu tài liệu API thực tế. Nó có hơn 2.200 cuộc đối thoại sử dụng hàng nghìn API.
Liên kết: Bài báo | GitHub

HammerBench: Đánh giá gọi hàm chi tiết trong kịch bản thiết bị di động thực tế

Một bộ tiêu chuẩn mới lạ được thiết kế để đánh giá khả năng gọi hàm của LLM trong các tương tác đa lượt thực tế giữa người và agent, đặc biệt là mô phỏng các trường hợp sử dụng trợ lý di động. Nó kiểm tra các mô hình trong những hoàn cảnh thách thức như chỉ dẫn không hoàn hảo và sự thay đổi trong ý định của người dùng.

DPAB-α

Dria Pythonic Agent Benchmark là một bộ tiêu chuẩn toàn diện được thiết kế để đánh giá khả năng gọi hàm của LLM. Nó so sánh cụ thể hiệu suất của các mô hình sử dụng cách gọi hàm kiểu Python (Pythonic) so với các phương pháp dựa trên JSON truyền thống qua 100 bài toán.
Liên kết: Blog

NFCL (Nexus Function Calling Leaderboard)

Một bộ tiêu chuẩn được thiết kế để đánh giá mức độ thành thạo của LLM trong các tác vụ gọi hàm đơn lượt. Nó đánh giá nhiều cấp độ phức tạp khác nhau, bao gồm gọi hàm đơn giản, song song và gọi hàm lồng nhau (nơi đầu ra của hàm này là đầu vào của hàm khác).

xLAM: Dòng mô hình Large Action Models cho Gọi hàm và Hệ thống AI Agent

Một loạt các mô hình hành động lớn (xLAM) được phát triển bởi Salesforce AI Research, được tối ưu hóa đặc biệt cho các tác vụ gọi hàm và AI agent. Các mô hình này được thiết kế để tăng cường khả năng khái quát hóa và hiệu suất của agent trong nhiều môi trường đa dạng.
Liên kết: Bài báo | GitHub

ToolACE: Khung làm việc tạo dữ liệu học tập công cụ chất lượng cao cho LLM

Một quy trình agentic tự động được thiết kế tỉ mỉ để tạo ra dữ liệu học tập công cụ chính xác, phức tạp và đa dạng, nhằm nâng cao khả năng gọi hàm của các LLM.
Liên kết: Bài báo

LiveMCPBench

Một bộ tiêu chuẩn toàn diện đánh giá khả năng của các LLM agent trong việc điều hướng và sử dụng hiệu quả bộ công cụ Model Context Protocol (MCP) quy mô lớn trong các kịch bản thực tế, vượt qua các hạn chế của môi trường máy chủ đơn lẻ.

MCP-Universe

Một khung làm việc và bộ tiêu chuẩn toàn diện để phát triển, kiểm thử và đánh giá các AI agent/LLM thông qua tương tác trực tiếp với các máy chủ MCP thực tế (thay vì mô phỏng), bao gồm các lĩnh vực như phân tích tài chính và tự động hóa trình duyệt.

Trợ lý tổng quát & Suy luận (General Assistant & Reasoning)

GAIA (General AI Assistants)

Một bộ tiêu chuẩn cột mốc được thiết kế để đánh giá các Trợ lý AI tổng quát thông qua các câu hỏi thực tế vốn đơn giản với con người nhưng lại cực kỳ thách thức với các hệ thống AI tiên tiến nhất. Nó yêu cầu mô hình phải thể hiện sự kết hợp các khả năng cơ bản: suy luận, xử lý đa phương thức, duyệt web và sử dụng công cụ thành thạo.

AgentBench: Bộ tiêu chuẩn toàn diện đánh giá LLM dưới vai trò Agent

Một bộ tiêu chuẩn đa chiều và không ngừng phát triển nhằm đánh giá kỹ lưỡng khả năng suy luận và ra quyết định của LLM khi hoạt động như các agent tự chủ. Nó bao gồm tám môi trường riêng biệt như Hệ điều hành, Cơ sở dữ liệu và Mua sắm trực tuyến.

AssistantBench

Một bộ tiêu chuẩn thách thức đánh giá khả năng của các web agent trong việc tự động giải quyết các nhiệm vụ thực tế và tốn thời gian. Nó bao gồm 214 nhiệm vụ yêu cầu điều hướng trên web mở, trải dài trên nhiều lĩnh vực và tương tác với hơn 525 trang từ 258 website khác nhau.

LiveBench: Bộ tiêu chuẩn thách thức và không bị nhiễm dữ liệu (Contamination-Free)

Một bộ tiêu chuẩn cho LLM liên tục cập nhật các câu hỏi mới từ các nguồn thông tin gần đây để đảm bảo mô hình được kiểm tra trên các vấn đề mới thay vì các câu trả lời đã được ghi nhớ từ dữ liệu huấn luyện.

Humanity's Last Exam (HLE)

Một bộ tiêu chuẩn đa phương thức cực kỳ khó với 2.500 câu hỏi học thuật cấp độ chuyên gia thuộc nhiều lĩnh vực, được thiết kế để kiểm tra các mô hình ở ranh giới tuyệt đối của tri thức nhân loại, yêu cầu khả năng suy luận thực sự thay vì chỉ gợi nhớ dữ kiện đơn thuần.

FORTRESS: Đánh giá rủi ro biên cho An ninh Quốc gia và An toàn Công cộng

Đánh giá độ bền vững của các rào chắn bảo vệ LLM trước các nguy cơ lạm dụng liên quan đến an ninh quốc gia, sử dụng các câu lệnh tấn công (adversarial prompts) do chuyên gia soạn thảo trong các lĩnh vực như vũ khí CBRNE và bạo lực chính trị.

SimpleQA & SimpleQA Verified

Bộ tiêu chuẩn về tính xác thực nhằm đánh giá khả năng của LLM trong việc trả lời các câu hỏi tìm kiếm dữ kiện ngắn. Nó đo lường mức độ mô hình "biết những gì mình biết" và xác định các lỗi "ảo giác" (hallucinations) với các câu trả lời duy nhất, không thể chối cãi. Phiên bản "Verified" đã qua quy trình lọc nghiêm ngặt để loại bỏ các nhãn nhiễu và thiên kiến chủ đề.

Lập trình & Kỹ thuật phần mềm (Coding & Software Engineering)

SWE-bench & SWE-bench Verified

Bộ tiêu chuẩn đánh giá khả năng giải quyết các vấn đề kỹ thuật phần mềm thực tế của AI. Nó yêu cầu mô hình tạo ra một bản vá (patch) để xử lý các lỗi thực từ GitHub. Phiên bản "Verified" gồm 500 mẫu đã được con người (các lập trình viên chuyên nghiệp) xác thực để đảm bảo mô hình đánh giá đáng tin cậy hơn.
Liên kết: Bài báo | [GitHub] | Bảng xếp hạng

SWE-Bench Pro

Mở rộng từ SWE-bench với 1.865 bài toán từ 41 kho lưu trữ chuyên nghiệp đa dạng, bao gồm cả một tập kiểm tra ẩn (private) với 276 nhiệm vụ để tránh gian lận.

LiveCodeBench

Bộ tiêu chuẩn toàn diện và không bị nhiễm dữ liệu, liên tục thu thập các bài toán mới từ các nền tảng lập trình thi đấu để đánh giá khả năng tự sửa lỗi, thực thi mã và dự đoán đầu ra của mô hình.

SWE-PolyBench: Bộ tiêu chuẩn đa ngôn ngữ cho AI Coding Agent

Đánh giá các agent lập trình trên nhiều ngôn ngữ khác nhau (Java, JavaScript, TypeScript, Python) thông qua hơn 2.000 vấn đề được tuyển chọn từ 21 kho lưu trữ thực tế.

Các bộ tiêu chuẩn của Aider (AI-Assisted Code & Polyglot)

Một loạt các bài đánh giá thực tế đo lường mức độ hiệu quả của LLM trong việc chỉnh sửa, tái cấu trúc (refactor) và đóng góp vào một codebase có sẵn trên nhiều ngôn ngữ lập trình khác nhau (C++, Go, Rust...).

Tương tác với Máy tính (GUI & Web)

WebArena: Môi trường web thực tế để xây dựng các Agent tự chủ

Một môi trường web độc lập, có thể tự lưu trữ (self-hostable) để xây dựng các agent tự chủ. WebArena tạo ra các trang web thuộc bốn danh mục phổ biến với chức năng và dữ liệu mô phỏng tương đương với thực tế, đồng thời giới thiệu một bộ tiêu chuẩn về việc diễn giải các câu lệnh cấp cao.

VisualWebArena

Bộ tiêu chuẩn đánh giá hiệu suất của các agent đa phương thức trên các tác vụ web thực tế dựa trên thị giác. Nó mở rộng WebArena với 910 tác vụ mới, đa dạng và phức tạp, yêu cầu agent xử lý chính xác đầu vào là hình ảnh-văn bản và thực hiện các hành động trên trang web.

Web Bench: Bộ tiêu chuẩn cho các Browser Agent AI

Đánh giá hiệu suất của các agent trình duyệt AI. Nó phân biệt khả năng của agent giữa các tác vụ truy xuất thông tin (READ) và các tác vụ thay đổi trạng thái (WRITE) trên 452 trang web trực tuyến, bao gồm 5.750 nhiệm vụ.

WebVoyager

Bộ tiêu chuẩn nền tảng để đánh giá các Mô hình Đa phương thức Lớn (LMM) và web agent trên các tác vụ điều hướng thực tế từ đầu đến cuối (end-to-end), tích hợp cả thông tin văn bản (HTML) và thị giác (ảnh chụp màn hình).

BrowseComp: Bộ tiêu chuẩn đơn giản nhưng đầy thách thức cho Browsing Agent

Một bộ tiêu chuẩn đo lường khả năng duyệt web của agent. Nó bao gồm 1.266 câu hỏi yêu cầu việc điều hướng kiên trì trên internet để tìm kiếm các thông tin khó tìm và chồng chéo.

Mind2Web

Bộ tiêu chuẩn toàn diện để phát triển và đánh giá các web agent tổng quát. Tập dữ liệu gốc bao gồm hơn 2.000 tác vụ mở được thu thập từ 137 trang web thực tế, với các biến thể để đánh giá hiệu suất trên các trang web trực tuyến.

WebGames Benchmark

Bộ tiêu chuẩn đánh giá các web-browsing agent đa năng thông qua hơn 50 thử thách tương tác vốn đơn giản với con người nhưng đầy thách thức với AI. Nó hoạt động trong một môi trường thử nghiệm khép kín và biệt lập.

ST-WebAgentBench

Nền tảng đo chuẩn được thiết kế đặc biệt để đánh giá tính an toàn và độ tin cậy của các web agent tự chủ trong bối cảnh doanh nghiệp thực tế, nơi việc tuân thủ chính sách và an toàn là tối quan trọng.

OSWorld: Đo chuẩn Agent đa phương thức cho tác vụ mở trong môi trường máy tính thực

Môi trường máy tính thực đầu tiên có khả năng mở rộng để đo chuẩn các agent đa phương thức trên các tác vụ mở trong các hệ điều hành chính thống (Windows, macOS, Ubuntu), bao gồm 369 tác vụ thực tế.

OSUniverse

Bộ tiêu chuẩn đánh giá các AI agent điều hướng GUI trên các tác vụ phức tạp, đa phương thức hướng tới môi trường máy tính để bàn (desktop). Nó gồm 160 tác vụ qua năm mức độ phức tạp và chín danh mục.

ScreenSuite Benchmark

Một bộ gồm 13 tiêu chuẩn đánh giá các GUI agent, tập trung vào các Mô hình Ngôn ngữ Thị giác (VLM). Nó sử dụng hệ thống đánh giá chỉ dựa trên thị giác mà không phụ thuộc vào cây hỗ trợ tiếp cận (accessibility trees) hay thông tin DOM.

WorkArena++: Đánh giá nâng cao cho AI trong quy trình công việc doanh nghiệp

Bộ tiêu chuẩn mới để đánh giá khắt khe các AI agent khi thực hiện các quy trình doanh nghiệp phức tạp. Nó mở rộng từ WorkArena gốc với 682 tác vụ mô phỏng các hoạt động phức tạp của nhân viên tri thức trên nền tảng ServiceNow.

AndroidWorld Benchmark

Môi trường đo chuẩn năng động cho các agent tự chủ điều khiển thiết bị di động. Nó hoạt động trên trình giả lập Android thực tế với 116 tác vụ thủ công trên 20 ứng dụng Android phổ biến, tạo ra hàng triệu biến thể nhiệm vụ độc nhất.

WorldGUI

Bộ tiêu chuẩn GUI toàn diện đánh giá các AI agent trên mười ứng dụng desktop và web được sử dụng rộng rãi (ví dụ: PowerPoint, VSCode). Nó bao gồm 315 tác vụ với các trạng thái khởi đầu đa dạng để mô phỏng tương tác thực giữa người và máy tính.

macOSWorld

Bộ tiêu chuẩn tương tác đa ngôn ngữ đầu tiên để đánh giá các GUI agent hoạt động trong môi trường macOS. Nó bao gồm 202 tác vụ đa ngôn ngữ trên 30 ứng dụng, với hướng dẫn và giao diện bằng năm ngôn ngữ khác nhau.

OfficeBench: Đo chuẩn các Language Agent qua nhiều ứng dụng tự động hóa văn phòng

Đánh giá khả năng của một LLM agent trong việc tự động hóa các quy trình văn phòng phức tạp qua nhiều ứng dụng như Word, Excel và email. Nó đánh giá khả năng lập kế hoạch dài hạn và sự thành thạo khi chuyển đổi giữa các ứng dụng.

EEBD (Emergence Enterprise Benchmark Dataset)

Đánh giá các AI agent trong các tình huống doanh nghiệp thực tế, yêu cầu chúng vượt ra ngoài tương tác trình duyệt đơn thuần bằng cách lựa chọn thông minh các công cụ như API và kết hợp tương tác UI web với gọi API.

ALFRED: Đo chuẩn diễn giải chỉ dẫn trong các tác vụ hàng ngày

Bộ tiêu chuẩn để học cách ánh xạ từ các chỉ dẫn ngôn ngữ tự nhiên và thị giác (góc nhìn thứ nhất) sang các chuỗi hành động cho các tác vụ gia đình trong môi trường 3D mô phỏng.

EmbodiedBench

Bộ tiêu chuẩn toàn diện đánh giá các Mô hình Ngôn ngữ Lớn Đa phương thức (MLLM) dưới vai trò các agent hiện thực hóa (embodied agents). Nó bao quát các tác vụ đa dạng về điều hướng, thao tác vật lý và lập kế hoạch cấp cao trong bốn môi trường mô phỏng.
Nguồn bài viết từ Tác giả Phil Schmid