Khả năng quan sát và kiểm soát tác nhân AI: Xây dựng ngăn xếp giám sát mới

Giới thiệu

Khi các doanh nghiệp triển khai ngày càng nhiều tác nhân AI tự chủ – từ trợ lý đàm thoại đến “bot” tự động hóa tác vụ – một thách thức mới nảy sinh: khả năng quan sát. Các tác nhân này đưa ra nhiều quyết định, gọi API, cập nhật ngữ cảnh và thậm chí hành động thay mặt người dùng. Tuy nhiên, các công cụ giám sát truyền thống chỉ cung cấp một cái nhìn hạn hẹp. Trong thực tế, các nhóm thường dựa vào các log phân tán hoặc bảng điều khiển không được thiết kế để ghi lại quá trình suy luận nhiều bước của một tác nhân. Một cuộc khảo sát gần đây của Dynatrace cho thấy một nửa số dự án dựa trên AI bị đình trệ ở giai đoạn thí điểm vì các tổ chức “không thể quản lý, xác thực hoặc mở rộng quy mô an toàn” các tác nhân của họ (www.itpro.com). Tương tự, các lãnh đạo bảo mật của Microsoft cảnh báo rằng chúng ta “không thể bảo vệ những gì chúng ta không thể thấy” – nhấn mạnh rằng các tác nhân AI yêu cầu một “mặt phẳng kiểm soát khả năng quan sát” khi mức độ áp dụng tăng lên (www.itpro.com) (www.itpro.com). Trong bài viết này, chúng tôi sẽ xem xét những khoảng trống trong giám sát các tác nhân tự chủ và bán tự chủ (đặc biệt xoay quanh việc sử dụng công cụ, bộ nhớ và các đường dẫn quyết định). Sau đó, chúng tôi đề xuất một nền tảng quan sát và kiểm soát chuyên biệt có thể ghi lại dấu vết từ đầu đến cuối, thực thi chính sách, mô phỏng quy trình làm việc và có thể hoàn tác các hành động không an toàn. Chúng tôi so sánh phương pháp này với các công cụ APM (giám sát hiệu suất ứng dụng) truyền thống, giải thích tại sao dữ liệu đo từ xa dành riêng cho tác nhân lại quan trọng, và phác thảo một mô hình định giá/tích hợp (ví dụ: thanh toán theo phút tác nhân với tích hợp PagerDuty/Jira).

Những khoảng trống trong giám sát tác nhân AI

Các tác nhân AI không phải là các lệnh gọi API đơn lẻ; chúng là các quy trình làm việc nhiều bước lập kế hoạch, tìm nạp thông tin, gọi công cụ và tổng hợp đầu ra trong điều kiện không chắc chắn (www.stackai.com). Sự phức tạp này tạo ra điểm mù cho giám sát thông thường:

Dữ liệu đo từ xa bị phân mảnh: Trong hầu hết các môi trường, dữ liệu đo từ xa bị phân mảnh. Một hệ thống ghi log các sự kiện điểm cuối, một hệ thống khác hiển thị lưu lượng mạng, một hệ thống thứ ba lưu giữ dữ liệu xác thực. TechRadar lưu ý rằng “hầu hết các tác nhân AI đều dựa vào các ngăn xếp dữ liệu đo từ xa phân mảnh mà các nhà phân tích đã phải vật lộn trong nhiều năm” (www.techradar.com). Nếu không tương quan các tín hiệu này, một tác nhân sẽ thiếu ngữ cảnh để suy luận chính xác. Ví dụ, một AI có thể nghi ngờ một tài khoản bị xâm nhập chỉ khi nó thấy cả một lần đăng nhập bất thường (từ log) và một mẫu mạng đáng ngờ – nhưng nếu các tín hiệu này nằm trong các công cụ khác nhau, tác nhân “đơn giản là không biết đủ” (www.techradar.com) (www.techradar.com). Nói tóm lại, dữ liệu phân mảnh tạo ra một khoảng cách hiển thị: các tác nhân hành động dựa trên thông tin không đầy đủ, dẫn đến các lỗi thầm lặng (các hành động sai không được phát hiện).
Điểm mù trong các lệnh gọi công cụ: Các tác nhân thường gọi các công cụ hoặc API bên ngoài (ví dụ: cơ sở dữ liệu, kho kiến thức, dịch vụ web). Giám sát truyền thống có thể chỉ ghi lại rằng một yêu cầu HTTP đã xảy ra, nhưng khả năng quan sát nhận biết tác nhân phải ghi log công cụ nào được chọn và tại sao. Nền tảng quan sát phải ghi lại lời nhắc hoặc ngữ cảnh chính xác dẫn đến việc lựa chọn công cụ đó, các đối số được truyền và toàn bộ phản hồi đầu ra hoặc lỗi (www.braintrust.dev). Nếu không có điều này, một tác nhân có thể cung cấp các tham số sai hoặc hiểu sai phản hồi của công cụ, và vấn đề sẽ vẫn ẩn. Ví dụ, hướng dẫn quan sát của Braintrust nhấn mạnh rằng mỗi lệnh gọi công cụ phải được truy vết với đầu vào và đầu ra của nó để các kỹ sư có thể “phát hiện các tham số ảo, thiếu trường hoặc định dạng không chính xác” (www.braintrust.dev).
Các hoạt động bộ nhớ không rõ ràng: Nhiều tác nhân sử dụng hệ thống bộ nhớ hoặc truy xuất (ví dụ: hồ sơ người dùng, kho kiến thức RAG). Ngữ cảnh động này có thể gây ra các lỗi không thể phát hiện nếu không ghi log “những gì tác nhân đọc và ghi” (www.braintrust.dev). Ví dụ, nếu một tác nhân truy xuất một mục bộ nhớ lỗi thời hoặc dữ liệu của người dùng sai, câu trả lời có thể âm thầm trở nên tồi tệ. Khả năng quan sát phải ghi log truy vấn truy xuất, các mục được trả về, điểm phù hợp và siêu dữ liệu độ mới, để người ta có thể truy vết một đầu ra sai về một lần đọc bộ nhớ lỗi thời hoặc nhắm mục tiêu sai (www.braintrust.dev). Tương tự, mỗi lần ghi bộ nhớ phải được ghi lại (thông tin gì đã được lưu trữ, dưới khóa nào) để phát hiện các lỗi tích lũy hoặc rò rỉ dữ liệu (ví dụ: thông tin của một người dùng xuất hiện trong phiên của người khác) (www.braintrust.dev).
Quỹ đạo quyết định vô hình: Không giống như một yêu cầu web với luồng “nhập mã, nhận câu trả lời” rõ ràng, các tác nhân thường chạy một vòng lặp lập kế hoạch-thực hiện-quan sát. Chúng tạo ra một kế hoạch, thực hiện một hành động (như “tìm kiếm cơ sở kiến thức”), quan sát kết quả, sau đó quyết định lập kế hoạch lại hoặc tiếp tục. Các log đơn giản không thể tiết lộ đường dẫn phân nhánh này. Khả năng quan sát yêu cầu ghi lại từng bước theo trình tự, với “lý do” của tác nhân cho mỗi hành động. Nếu không có nó, chúng ta có thể chỉ thấy đầu ra cuối cùng và nghĩ mọi thứ đều ổn – ngay cả khi giữa chừng tác nhân đã đi chệch nhiệm vụ hoặc bị mắc kẹt. Ví dụ, Braintrust nhấn mạnh “lệch kế hoạch” (tác nhân âm thầm thay đổi mục tiêu) và “vòng lặp vô hạn” là các chế độ lỗi mà chỉ dấu vết cấp độ bước mới có thể phơi bày (www.braintrust.dev). Một dấu vết thích hợp ghi lại mỗi lần gọi tác nhân phụ, quyết định phân nhánh và thời lượng vòng lặp, làm rõ liệu tác nhân có trả lời sai câu hỏi hoặc lặp lại các bước mà không có tiến bộ hay không.
Lỗi chất lượng thầm lặng: Nhiều lỗi tác nhân không kích hoạt lỗi HTTP hoặc sự cố. Thay vào đó, tác nhân có thể tạo dữ liệu ảo, vi phạm hướng dẫn người dùng hoặc lệch khỏi chính sách. Các trình giám sát thông thường (như Datadog hoặc New Relic) chỉ kiểm tra độ trễ hoặc tỷ lệ lỗi (www.techradar.com), vì vậy hệ thống sẽ báo cáo “mọi thứ đều xanh” ngay cả khi phản hồi sai về mặt thực tế. StackAI giải thích rằng các công cụ APM truyền thống giả định phần mềm xác định – nhưng các tác nhân phá vỡ những quy tắc đó (www.stackai.com). Chẳng hạn, một thay đổi lời nhắc hoặc nâng cấp mô hình có thể làm giảm chất lượng câu trả lời một cách tinh vi mà không gây ra bất kỳ cảnh báo rõ ràng nào (www.stackai.com). Do đó, khả năng quan sát phải bao gồm kiểm tra ngữ nghĩa: ví dụ: theo dõi tỷ lệ ảo giác hoặc các sự cố vi phạm chính sách. Tóm lại, các trình giám sát thông thường cho thấy một tác nhân đã phản hồi đúng giờ, nhưng chỉ dữ liệu đo từ xa dành riêng cho tác nhân mới có thể cho thấy liệu phản hồi có chính xác, liên quan hoặc an toàn hay không.
Rủi ro quản trị và bảo mật: Các tác nhân AI giới thiệu những thách thức tuân thủ mới (tiêm nhắc, rò rỉ quyền riêng tư, hành động trái phép). Nếu không có dữ liệu đo từ xa phù hợp, những rủi ro này là vô hình. StackAI lưu ý rằng khả năng quan sát và quản trị hội tụ: “bạn không thể thực thi các chính sách mà bạn không thể phát hiện” (www.stackai.com). Ví dụ, nếu một tác nhân ở chế độ hỗ trợ khách hàng bắt đầu làm rò rỉ dữ liệu cá nhân, chỉ các log dấu vết chi tiết mới có thể tiết lộ nguồn gốc của vi phạm. Do đó, nền tảng của chúng tôi phải theo dõi các vi phạm chính sách theo thời gian thực (ví dụ: gắn cờ PII trong đầu ra, chặn các lệnh gọi API không được phép) và cung cấp dấu vết kiểm toán để tuân thủ.

Tóm lại, các ngăn xếp APM và ghi log hiện có đơn giản là không ghi lại cách một tác nhân AI suy nghĩ: chuỗi suy nghĩ, logic phân nhánh và ngữ cảnh động. Điều này dẫn đến các điểm mù trong các lệnh gọi công cụ, sử dụng bộ nhớ và quỹ đạo quyết định. Nếu không giải quyết những khoảng trống này, các doanh nghiệp có nguy cơ gặp phải các lỗi tác nhân thầm lặng, vi phạm bảo mật và mất lòng tin.

Xây dựng nền tảng quan sát & kiểm soát tác nhân AI

Để lấp đầy những khoảng trống này, chúng tôi đề xuất một nền tảng Quan sát và Kiểm soát Tác nhân AI chuyên dụng. Dịch vụ này sẽ instrument các tác nhân từ đầu đến cuối, thực thi quản trị và cho phép thử nghiệm an toàn. Các tính năng chính bao gồm:

Truy vết và ghi log từ đầu đến cuối

Mỗi lần chạy tác nhân phải tạo ra một dấu vết ghi lại toàn bộ đồ thị thực thi. Lấy cảm hứng từ các phương pháp của hệ thống phân tán, quy trình làm việc của mỗi tác nhân là một dấu vết, và mỗi hành động (lời nhắc LLM, lệnh gọi công cụ, truy vấn bộ nhớ, chuyển giao giữa các tác nhân phụ) là một span trong dấu vết đó (www.stackai.com) (www.braintrust.dev). Điều này có nghĩa là một kỹ sư có thể thấy chuỗi chính xác: lời nhắc mà tác nhân đã thấy, cách nó chia nhỏ nhiệm vụ thành các bước và những gì mỗi công cụ đã trả về. Ví dụ, nếu một tác nhân truy vấn một kho tài liệu, dấu vết sẽ ghi lại truy vấn và nội dung được truy xuất; nếu sau đó nó định dạng lại truy vấn, đó là một span mới. Các định danh phiên liên kết các cuộc trò chuyện nhiều lượt hoặc các tác vụ dài. Sử dụng các giao thức tiêu chuẩn như OpenTelemetry, các dấu vết này có thể chảy vào các backend APM hiện có. Như một hướng dẫn đã lưu ý, “những nguyên tắc cơ bản này ngày càng phù hợp với các mẫu khả năng quan sát hiện có” (www.stackai.com). Trong thực tế, điều này cho phép bạn tương quan hành vi của tác nhân với cơ sở hạ tầng bên dưới: các đột biến CPU, I/O mạng hoặc lệnh gọi cơ sở dữ liệu có thể được xem cùng với các bước suy luận của tác nhân.

Thay vì ghi log văn bản thô dưới dạng tự do, nền tảng lưu trữ các span có cấu trúc. Ví dụ, một span có thể ghi lại: Công cụ: emailSender, Đầu vào: payload JSON, Đầu ra: thành công hoặc lỗi, Độ trễ: 200ms. Bằng cách lồng các span (ví dụ: các lệnh gọi công cụ dưới một lệnh gọi LLM cha), các kỹ sư có thể tìm hiểu sâu hơn về nơi đã dành thời gian hoặc bước nào gây ra lỗi. Quan trọng là, tất cả các đầu vào của người dùng, hướng dẫn hệ thống và đọc bộ nhớ đều trở thành dữ liệu dấu vết. Việc ghi log có cấu trúc này thay thế việc “debug bằng lệnh print” tẻ nhạt và giúp tìm kiếm và lọc log dễ dàng hơn (ví dụ: hiển thị tất cả các lần chạy mà tác nhân đã sử dụng công cụ financialAPI).

Thực thi chính sách thời gian thực

Nền tảng này còn đóng vai trò là mặt phẳng kiểm soát để quản trị. Nó liên tục kiểm tra dữ liệu đo từ xa của tác nhân theo các chính sách bảo mật và kinh doanh. Ví dụ, nếu một tác nhân cố gắng thực hiện một quy trình làm việc trái phép (như truy cập bảng lương HR khi không được phép), công cụ chính sách có thể can thiệp ngay lập tức. Các quy tắc có thể được định nghĩa trên dữ liệu dấu vết: ví dụ: “Cảnh báo nếu đầu ra chứa các mẫu thẻ tín dụng” hoặc “Chặn bất kỳ ghi cơ sở dữ liệu nào ngoài giờ hỗ trợ khách hàng từ 9-5.” Vì “bạn không thể thực thi các chính sách mà bạn không thể phát hiện” (www.stackai.com), dữ liệu quan sát này giúp việc thực thi trở nên khả thi. Trong thực tế, các vi phạm có thể kích hoạt kiểm soát tự động: nền tảng có thể tạm dừng tác nhân, leo thang cảnh báo hoặc hoàn tác bất kỳ thay đổi nào mà nó đã thực hiện. Một “nút ngắt tác nhân” tích hợp cho phép quản trị viên đóng băng hoặc hạn chế các tác nhân hoạt động sai (lặp lại lời khuyên rằng lãnh đạo nên biết “Nút ngắt là gì?” (www.techradar.com)). Ví dụ, nếu một tác nhân quét phần mềm độc hại hoạt động bất thường, ngay khi dữ liệu đo từ xa gắn cờ hành vi bất thường, hệ thống có thể ngay lập tức cách ly quyền của nó và cảnh báo kỹ sư trực nhật.

Thực thi chính sách mở rộng đến các kiểm tra quyền riêng tư và an toàn. Hệ thống có thể chạy các trình phát hiện PII tự động trên tất cả các tin nhắn gửi đi, hoặc có một mô-đun “LLM làm trọng tài” để phát hiện ảo giác hoặc lệch chính sách. Bất kỳ vi phạm an toàn nào cũng được ghi lại dưới dạng sự cố. Bằng cách lồng ghép các kiểm tra này vào lớp quan sát, các doanh nghiệp có được một bảng điều khiển an toàn trực tiếp ngoài các chỉ số hiệu suất.

Mô phỏng ngoại tuyến và kiểm thử “Sandbox”

Trước khi triển khai bất kỳ thay đổi đáng kể nào, việc mô phỏng các kịch bản là rất hữu ích. Nền tảng của chúng tôi bao gồm một môi trường sandbox để phát lại hoặc mô phỏng quy trình làm việc của tác nhân. Các nhóm có thể cung cấp cho tác nhân một bộ trường hợp thử nghiệm (phản ánh các yêu cầu phổ biến của người dùng hoặc các trường hợp biên) và thu thập log dấu vết trong một lần chạy thử. Đánh giá ngoại tuyến này đảm bảo các lời nhắc mới hoặc nâng cấp mô hình không phá vỡ chính sách hoặc làm giảm chất lượng (www.braintrust.dev). Ví dụ, trước khi cấp cho một tác nhân tài chính các đặc quyền API mới, các kỹ sư có thể mô phỏng các tác vụ đóng sổ cuối tháng để xác minh nó tuân thủ các quy trình phê duyệt. Hệ thống cũng có thể phát hiện các lỗi hồi quy: nếu một phiên bản tác nhân được cập nhật đột ngột cấu hình công cụ không chính xác, các dấu vết thử nghiệm sẽ tiết lộ sai sót trước khi nó đến môi trường sản xuất.

Trên thực tế, điều này giống như kỹ thuật hỗn loạn cho AI: cố ý để tác nhân tiếp xúc với các kịch bản đe dọa hoặc dữ liệu không chính xác để xem liệu nó có bị lệch hướng hay không. TechRadar khuyên rằng các doanh nghiệp nên “đo lường sự sẵn sàng bằng các đánh giá sandbox… để việc ra quyết định đã được thực hiện và thời gian phục hồi được hiểu rõ” (www.techradar.com). Nền tảng có thể tự động hóa các bài tập này theo lịch trình, ghi log mỗi lần chạy. Điều này giúp phát hiện sớm các lỗi tiềm ẩn (ví dụ: chỉ mục ngữ cảnh đã lỗi thời). Bằng cách tích hợp đánh giá vào quy trình phát triển, các nhóm đạt được một vòng lặp phản hồi: các lỗi sản xuất trở thành các trường hợp thử nghiệm mới, và mỗi bản phát hành phải vượt qua cổng ngoại tuyến.

Kiểm soát thực thi và hoàn tác

Ngay cả khi có phòng ngừa, sai sót vẫn có thể xảy ra. Nền tảng của chúng tôi cung cấp công cụ khắc phục. Đầu tiên, một lệnh “dừng” theo thời gian thực có thể ngay lập tức tạm dừng các hành động của tác nhân. Đối với các tác vụ dài hạn hoặc bất đồng bộ, hệ thống có thể gọi các điểm hủy bỏ nếu một chính sách bị vi phạm (chẳng hạn, hủy bỏ một giao dịch nếu tác nhân cố gắng rút tiền mà không được phê duyệt). Thứ hai, vì tất cả các hành động đều được truy vết, nền tảng có thể phát lại hoặc hoàn tác các hiệu ứng. Ví dụ, nếu một tác nhân gửi email sai cho khách hàng hoặc cập nhật CRM, các nhà điều hành có thể sử dụng log để tái tạo lại trạng thái trước khi thay đổi. Kết hợp với các log kiểm toán bất biến, điều này cho phép hoàn tác các giao dịch cơ sở dữ liệu hoặc thay đổi hệ thống tập tin được thực hiện bởi tác nhân. TechRadar nhấn mạnh sự cần thiết của điều này: “các tổ chức phải đánh giá lại… các đường dẫn hoàn tác tại mỗi lần triển khai AI” (www.techradar.com). Trong thực tế, nền tảng có thể chụp nhanh trạng thái trước khi thực thi hoặc tích hợp với các kho dữ liệu có phiên bản, đảm bảo các hành động tác nhân thất bại có thể được đảo ngược như một triển khai phần mềm lỗi.

Tích hợp với phản hồi sự cố và hệ thống theo dõi yêu cầu

Khả năng quan sát chỉ là một nửa cuộc chiến; các kỹ sư phải được cảnh báo hiệu quả. Nền tảng sẽ tích hợp với các công cụ quản lý sự cố và cộng tác hiện đại. Ví dụ, nó có thể đẩy các cảnh báo tác nhân quan trọng đến PagerDuty, tạo ra một sự cố trực nhật khi một vi phạm chính sách nghiêm trọng xảy ra. Nó có thể đăng tóm tắt lên các kênh Slack hoặc Microsoft Teams (PagerDuty lưu ý rằng hệ thống của họ có “tích hợp Slack và Microsoft Teams nâng cao” để giữ cho những người phản hồi tập trung (www.pagerduty.com)). Tích hợp với các hệ thống theo dõi yêu cầu cũng rất cần thiết: khi một cảnh báo được kích hoạt, nền tảng có thể tự động tạo một vé Jira hoặc ServiceNow được điền sẵn ID dấu vết, cuộc trò chuyện bị ảnh hưởng và chi tiết chính sách. Điều này đảm bảo các sự cố tác nhân đi vào cùng quy trình phân loại như các sự cố ngừng hoạt động khác. PagerDuty cũng nhấn mạnh hơn 700 tích hợp công cụ của họ (Datadog, Grafana, v.v.) để kết nối khả năng quan sát và phản hồi (www.pagerduty.com). Tương tự, nền tảng của chúng tôi sẽ cung cấp các trình kết nối đến log (ví dụ Splunk), số liệu (Prometheus) và hệ thống CI/CD, để mọi phần dữ liệu đo từ xa đều phù hợp với các bảng điều khiển và biểu đồ hiện có.

APM truyền thống so với dữ liệu đo từ xa của tác nhân

Điều này so sánh như thế nào với một giải pháp Giám sát Hiệu suất Ứng dụng (APM) cũ? Tóm lại, APM truyền thống (Datadog, New Relic, Dynatrace, v.v.) xuất sắc trong các số liệu cấp độ cơ sở hạ tầng và mã, nhưng nó coi các tác nhân như hộp đen. Ví dụ, Datadog có thể “tự động thu nạp, phân tích cú pháp và phân tích log từ khắp ngăn xếp của bạn” và mô-đun APM của nó “truy vết các yêu cầu trên các hệ thống phân tán” (www.techradar.com). Tương tự, giám sát mạng của nó cung cấp cái nhìn tổng quan về máy chủ, CPU, bộ nhớ và luồng mạng (www.techradar.com). Các công cụ này sẽ cảnh báo nếu một tác nhân tiêu thụ quá nhiều CPU hoặc gây ra lỗi ngoại lệ. Nhưng không có điều nào trong số đó ghi lại tác nhân đang suy nghĩ gì. Chúng sẽ không ghi log văn bản lời nhắc thực tế (do quy tắc riêng tư) hoặc chuỗi lệnh gọi LLM. Chúng sẽ không biết liệu câu trả lời nó tạo ra có dựa trên bộ nhớ không chính xác hay liệu nó có vi phạm một quy tắc kinh doanh hay không. Từ quan điểm của chúng, “mọi thứ đều xanh” bất cứ khi nào lệnh gọi API trả về 200 OK (www.stackai.com).

Trong thực tế, người ta có thể cố gắng tùy chỉnh APM cho các tác nhân (chẳng hạn, gắn thẻ mỗi yêu cầu trò chuyện và tìm kiếm log). Nhưng nếu không có các span dành riêng cho tác nhân, những khoảng trống vẫn còn. APM giả định các quy trình làm việc xác định: khi thất bại, chúng ta debug các đường dẫn mã. Nhưng với các tác nhân AI, các lỗi là thầm lặng (câu trả lời sai) hoặc ngữ nghĩa (vi phạm chính sách) thay vì gây ra ngoại lệ. StackAI quan sát rằng các tác nhân “vi phạm nhiều giả định [APM]” – ví dụ, một tác nhân không có mã lỗi khi nó đơn giản là tạo ảo giác (www.stackai.com). Hơn nữa, các chuỗi tác nhân nhiều bước trải rộng trên nhiều thành phần (mô hình, chỉ mục, công cụ); nếu bạn chỉ xem yêu cầu web cuối cùng, bạn sẽ mất tất cả ngữ cảnh về cách tác nhân đến đó. Cuối cùng, các công cụ APM thường không nhận biết được các chi phí cụ thể của AI (như việc sử dụng token) và các tín hiệu chất lượng.

Vì những lý do này, các doanh nghiệp xây dựng hệ thống tác nhân ngày càng nhận thấy nhu cầu về dữ liệu đo từ xa chuyên dụng. Như Dynatrace đã báo cáo, “Khả năng quan sát… là một thành phần quan trọng của chiến lược AI tác nhân thành công. Các nhóm cần khả năng hiển thị theo thời gian thực về cách các tác nhân AI hoạt động, tương tác và đưa ra quyết định” (www.itpro.com). Nền tảng được đề xuất cung cấp chính xác cái nhìn theo lớp mà các công cụ APM không thể: từ các số liệu sức khỏe cấp cao đến các bước nhận thức của tác nhân. Nó về cơ bản mở rộng các tín hiệu vàng của APM (độ trễ, lỗi, thông lượng) với các chỉ số chất lượng dành riêng cho tác nhân (tính chân thực, tỷ lệ hoàn thành, tần suất ảo giác) (www.stackai.com) (www.stackai.com).

Mô hình định giá

Mô hình định giá đơn giản là dựa trên mức sử dụng. Một cách tiếp cận là tính phí theo phút tác nhân (thời gian một tác nhân đang chủ động tính toán các tác vụ). Ví dụ, dịch vụ có thể được định giá khoảng $0.05–$0.10 mỗi phút tác nhân, tương tự như thanh toán chức năng đám mây. Điều này bao gồm chi phí thu thập và lưu trữ dữ liệu dấu vết/span, chạy kiểm tra đánh giá và lưu trữ log. (Có thể có phí cơ bản hàng tháng để truy cập nền tảng cộng với phí vượt mức.) Việc lưu trữ dữ liệu bổ sung hoặc khối lượng log có thể được tính phí theo GB. Giảm giá theo số lượng lớn hoặc các gói doanh nghiệp có thể cung cấp mức giá thấp hơn mỗi phút cho các triển khai lớn. Điều này điều chỉnh chi phí với mức tiêu thụ: một bot hoạt động không thường xuyên sẽ phát sinh chi phí tối thiểu cho đến khi nó chạy. Để tham khảo, nhiều sản phẩm giám sát và serverless sử dụng định giá dựa trên mức sử dụng chi tiết. Số liệu “phút tác nhân” của chúng tôi tương tự – người dùng biết chính xác những gì họ phải trả cho mỗi giờ chạy tác nhân, thúc đẩy việc sử dụng hiệu quả.

Kết luận

Các tác nhân AI tự chủ hứa hẹn mang lại lợi ích năng suất lớn, nhưng chỉ khi chúng ta có thể thấy và kiểm soát các hành động của chúng. Lĩnh vực khả năng quan sát AI mới nổi giải quyết chính xác điều này: làm cho “quá trình suy nghĩ” của các tác nhân trở nên minh bạch và dễ quản lý. Bằng cách instrument các lệnh gọi công cụ, truy cập bộ nhớ và các bước quyết định dưới dạng dấu vết, chúng ta có được cái nhìn sâu sắc về các lỗi không rõ ràng và khoảng trống quản trị. Một nền tảng giám sát chuyên dụng (với thực thi chính sách, mô phỏng, hoàn tác và tích hợp phản hồi sự cố) đảm bảo rằng các tác nhân hoạt động an toàn trong môi trường sản xuất. Ngược lại với các công cụ APM cũ, dữ liệu đo từ xa dành riêng cho tác nhân coi hệ thống AI là một công dân hạng nhất, không chỉ là máy chủ của nó.

Như các cuộc khảo sát và chuyên gia cảnh báo, thiếu khả năng quan sát là một rào cản lớn đối với việc mở rộng quy mô AI tác nhân (www.itpro.com) (www.itpro.com). Bằng cách xây dựng ngăn xếp giám sát mới được mô tả ở đây, các tổ chức có thể biến “phỏng đoán đầy hy vọng” thành tự động hóa đáng tin cậy (www.techradar.com). Cuối cùng, một phương pháp tiếp cận như vậy xây dựng niềm tin rằng các tác nhân sẽ hoạt động theo đúng ý định và cho phép đổi mới với sự tự tin. Khi có điều gì đó không ổn, nó sẽ không còn là một vi phạm hoặc ảo giác bí ẩn – log dấu vết và mặt phẳng kiểm soát sẽ xác định chính xác chế độ lỗi, cho phép giảm thiểu và học hỏi nhanh chóng. Trong kỷ nguyên của các tác nhân tự chủ, khả năng quan sát không phải là tùy chọn; đó là nền tảng của AI an toàn, có thể mở rộng.