A2A: How agent talks to agent – Các tác nhân AI giao tiếp với nhau như thế nào?

Trong vài năm gần đây, multi‑agent systems (hệ thống đa tác nhân) bùng nổ trở lại nhờ sự phổ biến của các mô hình ngôn ngữ lớn. Thay vì một hệ thống đơn lẻ cố gắng làm tất cả, nhiều nhóm bắt đầu chia nhỏ công việc cho các tác nhân chuyên biệt – mỗi tác nhân là một chương trình, dịch vụ hay mô hình AI có mục tiêu và năng lực riêng. Nhưng khi nhiều tác nhân cùng tồn tại, việc đối thoại giữa chúng trở nên quan trọng. Khái niệm A2A (Agent‑to‑Agent) đề cập tới tiêu chuẩn hoá việc trao đổi thông tin, nhiệm vụ và tri thức giữa các tác nhân. Bài viết này tổng hợp các khái niệm và tiêu chuẩn quan trọng, giúp những ai đang tìm hiểu về AI hiểu rõ bức tranh toàn cảnh về agentic AI và việc “các tác nhân trò chuyện với nhau”. Hãy cùng bắt đầu ngay với Lemon’s Tribe nhé.

Mục lục

Định nghĩa và ý nghĩa cho sự tồn tại của hệ thống đa tác nhân
Cấu trúc và mẫu giao tiếp cơ bản trong A2A
1. Cấu trúc thông điệp (message structure)
2. Các mẫu giao tiếp thường gặp (communication patterns)
3. Cơ chế giao tiếp (communication mechanism)
Ngôn ngữ và giao thức giao tiếp giữa tác nhân (Communication protocols)
1. FIPA‑ACL
2. KQML
3. Giao thức tùy chỉnh và tiêu chuẩn mở mới
Chiến lược phối hợp giữa các tác nhân (Orchestration layer)
1. Phối hợp dựa trên thị trường (Market-based)
2. Phối hợp dựa trên đồng thuận (Consensus‑based)
3. Kiến trúc phối hợp
Tạm kết
Nguồn tham khảo

Định nghĩa và ý nghĩa cho sự tồn tại của hệ thống đa tác nhân

Một tác nhân (agent) là một thực thể phần mềm tự chủ, có chính sách hành động và nguồn tri thức riêng. Tác nhân có thể quan sát môi trường, đưa ra quyết định và hành động để đạt mục tiêu. Hệ thống đa tác nhân (Multi‑Agent System – MAS) là tập hợp các tác nhân tự trị tương tác trong cùng môi trường để hoàn thành mục tiêu cá nhân hoặc mục tiêu chung. Mỗi tác nhân sở hữu cơ sở tri thức, năng lực suy luận và quá trình ra quyết định riêng, vì vậy các công việc được phân chia theo chuyên môn của từng tác nhân thay vì để một mô hình xử lý tất cả.

Các công ty sử dụng hệ thống đa tác nhân vì nhiều lý do:

Rút ngắn thời gian xử lý: các tác nhân chuyên biệt có thể chạy song song nên rút ngắn thời gian xử lý.
Chuyên môn hoá: mỗi tác nhân tập trung vào một vai trò (planner, worker, reviewer…) giúp chất lượng từng bước tốt hơn.
Tăng độ bền: khi một tác nhân gặp lỗi, các tác nhân khác vẫn hoạt động, hệ thống dễ thích ứng hơn.
Giảm tải bộ nhớ: một tác nhân đơn lẻ có thể quên thông tin trong một cuộc hội thoại dài; phân tách thành nhiều tác nhân giúp tránh hiện tượng “quên”.¹

Song, MAS cũng mang tới thách thức: cần cơ chế phân bổ nhiệm vụ, đồng bộ trạng thái, đảm bảo an toàn và kiểm soát chi phí . Vì vậy, để MAS thực sự phát huy tác dụng, các tác nhân phải giao tiếp hiệu quả.²

Cấu trúc và mẫu giao tiếp cơ bản trong A2A

Cấu trúc thông điệp (message structure)

Các tác nhân thường trao đổi thông điệp (message) thông qua một giao thức. Mỗi thông điệp chứa các thành phần tiêu chuẩn như:

Người gửi (sender ID): mã định danh của người gửi
Người nhận (receiver ID): mã định danh của người nhận
Mục tiêu của thông điệp (performative): REQUEST (yêu cầu), INFORM (thông báo), PROPOSE (đề xuất)
Nội dung (content): nội dung của thông điệp
Bản thể (ontology): cấu trúc data
Ngôn ngữ của thông điệp (Language): format theo dạng JSON, XML hay custom format

Thêm vào đó, thông điệp có thể đính kèm thêm một số metadata như:

Mốc thời gian (timestamp): đánh dấu thời gian gửi để sắp xếp trình tự.
Độ ưu tiên (priority): đảm bảo thông điệp quan trọng được xử lý trước khi mạng quá tải.
Token bảo mật (security token): xác thực người gửi/nhận, ngăn chặn xâm nhập.
Các trường thông tin phản hồi (reply-with fields): các trường thông tin được trả ra dưới dạng response của 1 request nào đó
Quy cách mã hoá (encoding specifications): quy chuẩn format data theo chuẩn quốc tế

Cấu trúc này giúp tác nhân hiểu “ý định” của nhau thay vì chỉ chuyển dữ liệu thô. Nếu thiếu quy ước, tác nhân chỉ “la vào khoảng không” như ví dụ “Yes” không rõ nghĩa.³

Ví dụ:

CS chatbot supervisor gọi Tool agent

{
  "message_type": "tool_call",
  "sender": "SupervisorAgent",
  "receiver": "TransactionToolAgent",

  "conversation_id": "chat_7721",
  "trace_id": "trace_99213",

  "intent": "fetch_transaction_status",

  "payload": {
    "transaction_id": "TX88372821",
    "user_id": "U239148"
  },

  "metadata": {
    "timestamp": "2026-05-03T09:47:10Z",
    "priority": "medium",
    "retry_count": 0,
    "auth_scope": "read_transaction"
  }
}

Sau đó Tool agent phản hồi:

{
  "message_type": "tool_response",
  "sender": "TransactionToolAgent",
  "receiver": "SupervisorAgent",

  "conversation_id": "chat_7721",
  "trace_id": "trace_99213",

  "status": "success",

  "result": {
    "transaction_status": "completed",
    "completed_at": "2026-05-03T09:44:11Z"
  }
}

Supervisor agent sẽ tiếp tục soạn câu trả lời cho user.

Các mẫu giao tiếp thường gặp (communication patterns)

Tùy vào bài toán, MAS sử dụng nhiều mẫu giao tiếp khác nhau:

Mẫu giao tiếp	Đặc điểm	Khi nào dùng
Point‑to‑point	2 tác nhân trao đổi trực tiếp, độ trễ thấp	Thương thảo riêng tư, chia sẻ dữ liệu nhạy cảm
Broadcast	Một tác nhân gửi thông điệp giống hệt cho nhiều tác nhân	Phát thông báo, cập nhật trạng thái
Publish‑subscribe (gọi tắt là pub-sub)	Tác nhân đăng ký nhận thông điệp theo chủ đề, tác nhân thông báo không cần biết người nhận	Phân phối dữ liệu quy mô lớn, tách biệt người gửi và người nhận
Request‑response	Giao tiếp đồng bộ, yêu cầu và chờ phản hồi	Đòi hỏi độ tin cậy cao nhưng tăng độ trễ
Event‑driven	Thông điệp kích hoạt bởi sự kiện, không đồng bộ	Ứng biến linh hoạt, phải lọc sự kiện để tránh quá tải
Multicast	Gửi thông điệp tới một nhóm tác nhân xác định	Cân bằng giữa broadcast và point‑to‑point

Các hệ thống thực tế thường kết hợp nhiều mẫu để tối ưu hiệu quả. Tuy nhiên, các mẫu giao tiếp mô tả cách thông điệp được tổ chức giữa các tác nhân, không phải cách thông điệp được truyền trong hạ tầng hệ thống.⁴

Cơ chế giao tiếp (communication mechanism)

Các agentic MAS sử dụng ba cơ chế chính⁵:

Message passing: truyền thông điệp có cấu trúc giữa tác nhân; yêu cầu các loại thông điệp định nghĩa rõ nghĩa và phản ứng.
Shared memory (blackboard): một kho tri thức chung mà tác nhân đọc/ghi thông tin. Mẫu blackboard cho phép tác nhân quan sát và đóng góp khi có khả năng, đặc biệt hữu dụng khi giải quyết vấn đề phức tạp đòi hỏi nhiều chuyên môn.⁶
Tool calling: các tác nhân có thể gọi các dịch vụ ngoài như API, cơ sở dữ liệu hay module phân tích.

Ngôn ngữ và giao thức giao tiếp giữa tác nhân (Communication protocols)

FIPA‑ACL

Trong lịch sử, nhiều ngôn ngữ giao tiếp đã được đề xuất. FIPA‑ACL (Foundation for Intelligent Physical Agents – Agent Communication Language) do tổ chức FIPA phát triển là chuẩn được sử dụng rộng rãi nhất. FIPA là tổ chức phi lợi nhuận thành lập năm 1996 với mục tiêu xây dựng các tiêu chuẩn cho tác nhân. Dù FIPA giải thể năm 2005 và chuyển sang uỷ ban IEEE, chuẩn FIPA‑ACL vẫn được nhiều hệ thống áp dụng.⁷

FIPA‑ACL sử dụng các performatives để truyền đạt ý định cho nhau. Các performatives quan trọng gồm:

INFORM: chia sẻ thông tin, không đòi hỏi hành động .
REQUEST: yêu cầu tác nhân khác thực hiện hành động cụ thể . PROPOSE: đề xuất kế hoạch hoặc điều khoản (thường dùng trong các cơ chế đấu thầu).
ACCEPT‑PROPOSAL/REJECT‑PROPOSAL: chấp nhận hoặc từ chối đề xuất kèm lý do.
QUERY‑REF: truy vấn dữ liệu, hỗ trợ chia sẻ tri thức.
CONFIRM/CANCEL: xác nhận hoặc huỷ yêu cầu để đảm bảo độ tin cậy .

Nhờ ngữ nghĩa phong phú, FIPA‑ACL hỗ trợ đàm phán, lập kế hoạch hợp tác và ra quyết định phân tán.⁸

KQML

KQML (Knowledge Query and Manipulation Language) là ngôn ngữ giao tiếp tập trung vào biểu diễn và thao tác tri thức. KQML đặc biệt hữu ích trong môi trường nghiên cứu vì hỗ trợ ontologies phức tạp. Song KQML khó triển khai hơn và ít có công cụ thương mại so với FIPA‑ACL.⁹

Giao thức tùy chỉnh và tiêu chuẩn mở mới

Nhiều tổ chức tự phát triển giao thức nội bộ để đáp ứng yêu cầu riêng (hiệu năng, hệ thống di sản – legacy hoặc bảo mật) . Tuy nhiên, nếu quá tùy biến, hệ thống sẽ khó tương tác với bên ngoài. Trong bối cảnh này, tiêu chuẩn mở (open stardard) đang xuất hiện nhằm tăng khả năng tương tác.

Tháng 6 năm 2025, Linux Foundation công bố Agent2Agent (A2A) Protocol – một dự án do Google khởi xướng nhằm thiết lập chuẩn an toàn cho giao tiếp tác nhân. A2A cho phép tác nhân khám phá lẫn nhau, trao đổi thông tin an toàn và cộng tác xuyên hệ thống. Dự án nhận được sự ủng hộ từ hơn 100 công ty lớn như AWS, Cisco, Salesforce, SAP và Microsoft nhằm đảm bảo tiêu chuẩn này trung lập và mở. Mục tiêu của A2A là giảm phụ thuộc vào nhà cung cấp, tăng khả năng mở rộng và thúc đẩy đổi mới nhanh hơn trong hệ sinh thái agentic AI.¹⁰

Song song với A2A, Model Context Protocol (MCP) – một chuẩn do Anthropic hiến tặng – xử lý phần kết nối giữa tác nhân và công cụ. MCP giúp tác nhân truy cập dữ liệu và công cụ một cách an toàn, còn A2A tập trung vào giao tiếp giữa các tác nhân.¹¹

Chiến lược phối hợp giữa các tác nhân (Orchestration layer)

Giao tiếp chỉ là một phần; để đạt mục tiêu chung, các tác nhân cần chiến lược phối hợp hợp lý. Dưới đây là một số mô hình chủ đạo.

Phối hợp dựa trên thị trường (Market-based)

Trong mô hình này, các tác nhân cạnh tranh hoặc thương lượng như trong thị trường kinh tế. Contract Net Protocol là ví dụ nổi bật: một tác nhân “chủ trì” công bố nhiệm vụ với yêu cầu, điều kiện, tiêu chí đánh giá; các tác nhân “thầu” gửi đề xuất nêu năng lực, thời gian, chi phí; tác nhân chủ trì chọn đề xuất tối ưu, giao hợp đồng, nhận báo cáo tiến độ và đánh giá kết quả . Mô hình này phù hợp khi cần phân bổ tài nguyên hạn chế hoặc khi khả năng của tác nhân biến động liên tục (ví dụ: mạng lưới robot tham gia vào nhiều nhiệm vụ khác nhau).

Ngoài Contract Net, các hệ thống còn áp dụng các cơ chế đấu giá khác (English, Dutch, sealed‑bid…) để tối ưu mục tiêu cụ thể.¹²

Phối hợp dựa trên đồng thuận (Consensus‑based)

Trong môi trường phân tán, các tác nhân cần đồng thuận để duy trì trạng thái nhất quán. Các phương pháp như bỏ phiếu, bỏ phiếu trọng số theo uy tín hoặc cơ chế Byzantine giúp đưa ra quyết định tập thể. Đồng thuận đặc biệt quan trọng khi sai lệch trạng thái có thể dẫn tới hậu quả nghiêm trọng (ví dụ: hệ điều khiển lưới điện).¹³

Kiến trúc phối hợp

Một số kiến trúc A2A bao gồm¹⁴ ¹⁵:

Hierarchical orchestration: một tác nhân điều phối (coordinator) phân chia nhiệm vụ và thu thập kết quả. Mẫu này đơn giản hóa việc giám sát và kiểm soát nhưng dễ tạo nút thắt khi coordinator quá tải.
Peer‑to‑peer: tác nhân ngang hàng, tự thương lượng và trao đổi trực tiếp. Mẫu này linh hoạt, tăng độ bền nhưng đòi hỏi cơ chế đồng thuận phức tạp và có thể tăng độ trễ.
Pipeline: các tác nhân xếp thành chuỗi, mỗi tác nhân thực hiện một bước rồi chuyển sang tác nhân kế tiếp . Phù hợp với quy trình rõ ràng (như xử lý tài liệu) nhưng tổng thời gian phụ thuộc vào mắt xích chậm nhất.
Hub‑and‑spoke: một tác nhân trung tâm làm “hub” chuyển tiếp thông điệp giữa các tác nhân “spoke” chuyên biệt. Hub có thể thực hiện routing phức tạp và quản lý trạng thái, nhưng trở thành điểm lỗi đơn lẻ.
Blackboard: các tác nhân sử dụng kho tri thức chung để viết/đọc thông tin . Phù hợp khi đường đi đến lời giải không rõ ràng và cần tổng hợp nhiều góc nhìn.
Memory architecture: nhiều hệ thống sử dụng bộ nhớ hai tầng – bộ nhớ ngắn hạn lưu ngữ cảnh mới nhất và bộ nhớ dài hạn lưu tri thức lâu dài – để tác nhân có thể nối tiếp công việc mà không lặp lại.

Tạm kết

Agent‑to‑Agent là trái tim của những hệ thống AI nhiều tác nhân. Khi các tác nhân có thể nói chuyện bằng ngôn ngữ và giao thức tiêu chuẩn, chúng không chỉ trao đổi dữ liệu mà còn chia sẻ ý định, tri thức và chiến lược. FIPA‑ACL và KQML đặt nền tảng, còn A2A đang mang đến một chuẩn mở, an toàn và trung lập cho tương lai. Kết hợp với các mô hình phối hợp hệ nhiều tác nhân mở ra khả năng xử lý công việc phức tạp mà trước đây một tác nhân không thể làm được.

Hình 1. Agent communication stack (hình ảnh tạo bởi AI)

Hình 2. Tóm tắt bài viết (hình ảnh được tạo bởi AI)

Đối với PO/PM và người làm kinh doanh, việc hiểu cơ chế giao tiếp và phối hợp của MAS là bước đầu để thiết kế sản phẩm hiệu quả và tận dụng sức mạnh agentic AI. Với sự phát triển nhanh của A2A và các tiêu chuẩn liên quan, tương lai của AI không chỉ là những tác nhân đơn lẻ mà là hệ sinh thái tác nhân tương tác, cùng hợp tác để mang lại giá trị cao hơn cho doanh nghiệp và xã hội.