O technicznych aspektach LLM-ów i AI dla nieinformatyków, cz. 4. "Budowa Agentów AI"

Umożliwienie konsumentom (użytkownikom) zastosowania agentów AI do automatyzacji zakupów online https://dfe.org.pl/zakupy-konsumenckie/ wymaga zastosowania ich kilku ważnych funkcji.

Agent AI to złożony system (algorytm) obliczeniowy, który integruje zadania wykonywane przez odrębne programy i modele. Dotychczas każdy model AI wykonywał swoje zadania niezależnie, nie będąc zależnym i zintegrowanym ani nie bazując na wynikach działania innych modeli. Proces połączenia wyników pracy poszczególnych modeli wymagał albo pracy człowieka (użytkownika zwanego operatorem) albo oprogramowania sterującego pracą systemu komputerowego, np. przepływu pracy (z ang. work flow), zazwyczaj w z góry ustalony sposób, często pomijający nowe napływające dane czy nieprzewidziane zdarzenia lub konieczność zastosowania innych lub nowych modeli.

Agent AI realizuje zadania podobnie do człowieka, adaptując swoje i innych działanie do sytuacji. Na podstawie wytycznych analizuje cel swojego działania i dynamicznie dostosowuje działanie na podstawie uzyskanych danych z podłączonych źródeł. Gdy w trakcie realizacji zadnia trafia na istotne szczegóły może samodzielnie zdecydować na przeprowadzenie samodzielnie lub przy użyciu innego modelu dodatkowej analizy, czy zmianę sposobu realizacji zadania.

Agent AI może działać samodzielnie, ale i być elementem większego systemu np. do zarządzania zautomatyzowanym przepływem pracy, jaki jednocześnie współpracować z wieloma modelami i Agentami AI w ramach większego systemu do zarządzania przepływem pracy. Takie zastosowanie daje hiper skalowalność automatyzacji opartej o działanie sztucznej inteligencji (AI) oraz algorytmów deterministycznych zaimplementowanych w tradycyjnym oprogramowaniu np. CRM czy ERP np. poprzez ich integracje w ramach większego systemu do zarządzania zautomatyzowanym przepływem pracy np. za pomocą API i  MCP https://dfe.org.pl/llm-mcp/.

Podstawą działania agentów AI są zasady, umożliwiające zautomatyzowane rozwiązywanie skompilowanych zadań i problemów przy wykorzystaniu kompleksowego zrozumienia problemu za pomocą analizy, na podstawie pojawiających się danych. Do podstawowych elementów i koniecznych do działania agenta AI należy zaliczyć:

Koncepcje zarzadzania stanem określającą, w jaki sposób agent AI jednocześnie pamięta o tym, co ma zrobić (jaki jest cel jego działania) i jakie są dane wejściowe (wie, czego się nauczył). Ta swego rodzaju świadomość daje mu przewagę względem innych technologii. Kolejną jest koncepcja ram podejmowania decyzji wychodząca poza ramy wyboru między z góry określonymi zasadami (opcja A lub B) dająca możliwość działania samodzielnego i wyboru z pośród wielu dostępnych rozwiązań (n-opcji) w oparciu o bieżącą sytuacje (zdarzenia i napływające informacje ze źródeł) oraz na podstawie tego co określa koncepcja zarzadzania stanem.

Planowanie pełniące rolę „mózgu” agenta AI wykorzystujące duże modele językowe (z ang. Large Language Model -LLM) lub inne silniki analizy wielokryteryjnej i wnioskowania. Obejmuje ono rozkładanie zadań na elementy, analizę i zrozumienie historii działań, dostosowywanie działania i krytyczną analizę postępów w celu skutecznej realizacji celów. To kluczowy komponent, bez którego agenci AI nie są w stanie skutecznie automatyzować złożonych zadań. Jako narzędzia (zewnętrzne) agenci AI wykorzystują różne oprogramowanie, interpretery kodu, wyszukiwarki internetowe, kalkulatory lub generatory obrazów a coraz częściej fizyczne roboty. Zrozumienie, przez agenta AI kiedy i jak korzystać z tych narzędzi, pozwala mu wykonywać zaplanowane działania i przekształcać abstrakcyjne cele w konkretne wyniki np. dokonanie zakupu określonego produktu po najniższej dostępnej cenie w określonym czasie z wykorzystaniem systemów płatności czy sklepów internetowych.

Systemy pamięci umożliwiające agentom AI przechowywanie i przywoływanie, kiedy istnieje taka potrzeba informacji. Obejmuje to zarówno pamięć krótkotrwałą tzw. roboczą (z ang. random-access memory) w tym statyczną (z ang. static random-access memory – SRAM) oraz dynamiczną (z ang. dynamic random-access memory – DRAM) służącą do przechowywania informacji dotyczących bieżącego kontekstu działania oraz pamięć długotrwałą zapisaną na nośnikach twardych (z ang. hard disk drive -HDD) i stałych (z ang. solid-state drive -SSD) służącą do przechowywania danych historycznych, często realizowaną za pomocą zewnętrznych baz danych (magazynów pamięci) wektorowych. Rozwiązanie to wspiera iteracyjne uczenie się i ciągłość działania agenta AI między zadaniami. Należy przy tym wspomnieć, iż w zastosowaniach chmurowych często dla użytkownika nie jest widoczne jak rodzaj pamięci wykorzystuje agent AI.

Czujniki działające jak kanały wejściowe informacji agenta AI, zbierając dane z otoczenia np. poprzez wywołania interfejsu programowania aplikacji (z ang. application programming interface – API), zapytania do baz danych systemów operacyjnych tj. CRM czy ERP lub roboty (programowalne boty) indeksujące dane np. w postaci tekstu lub liczb. Agenci AI współdziałający z robotami fizycznymi lub zastosowani w robotach fizycznych mogą także wykorzystywać czujniki takie jak kamery, mikrofony lub inne czujniki sprzętowe. Sposób wykorzystania, jakość i różnorodność czujników wpływają zarówno na zdolność agenta AI do rozumienia otoczenia jak i interakcji z nim w tym z człowiekiem.

Efektory umożliwiające agentom AI oddziaływanie zarówno na otoczenie niefizycznie tj. inni agenci AI, oprogramowanie jak i otoczenie fizyczne, np. poprzez wysyłanie wiadomości, zapisy do baz danych lub sterowanie fizycznymi robotami czy sprzętem. W agentach AI programowych efektory mogą być zarówno funkcjami wykonującymi transakcje lub generującymi rozwiązania np. odpowiedzi tekstowe. W przypadku agentów AI fizycznych funkcjami wykonującymi mogą być oddziaływania fizyczne poprzez działanie z wykorzystaniem siłowników czy silników albo głośników czy mikrofonów lub kamer np. do prowadzenia pojazdów autonomicznych czy dronów.

Reprezentacje wiedzy będącą zaawansowaną strukturą, jak grafy wiedzy, osadzenia (z ang. embeddings) lub wykorzystywane modele generatywne, w celu reprezentacji złożonych i dynamicznych informacji, umożliwiając elastyczne rozumowanie i adaptację agenta AI do utrzymania wewnętrznego modelu w (przekonaniu) otaczającym świecie, celach (zadaniach) i planach (intencje). Modele te często wykorzystują. Przy czym grafy wiedzy to struktury oparte na węzłach (encjach) i krawędziach (relacjach), które reprezentują wiedzę w sposób semantyczny, umożliwiając agentom AI na mapowanie zależności między pojęciami np. takimi jak nazwa produktu a nazwa producenta a określony tekst. Osadzenia to techniki przekształcania danych tj. tekst, liczby czy obrazy w wektory numeryczne, które zachowują semantyczne podobieństwo, dzięki czemu agenci AI mogą porównywać i klasyfikować informacje np. rozpoznawać, że określony tekst oznacza nazwa produktu a inny nazwa producenta i że są one ze sobą powiązane logicznie.

Mechanizmy podejmowania decyzji służą agentom AI do podejmowanie decyzji polegających na optymalnych wyborach działania w oparciu o aktualny stan, dane o przekonaniach, celach i ograniczeniach środowiskowa w jakim działa. Obejmują one zarówno tzw. rozumowanie probabilistyczne, uczenie się przez wzmocnienie, algorytmy planowania, algorytmy oparte na wyszukiwaniu, planowanie hierarchiczne, planowanie z użyciem uczenia maszynowego, czy algorytmów tłumaczących lub neurosymbolicznego planowania.

Agenci AI mogą stosować różne mechanizmy i strategie adaptacyjne w celu zrównoważenia eksploracji i eksploatacji, zapewniając skuteczne i świadome kontekstu zachowanie.

Pomimo iż budowa agentów AI od strony technologicznej jest dość skomplikowana i oparta o tzw. planowanie (z ang. planning), wykorzystanie narzędzi (z ang. tools), systemy pamięci (z ang. memory systems), sensory (z ang. sensors), to takie “czujniki” zwane efektorami (z ang. effectors), reprezentację wiedzy (z ang. knowledge representation) oraz mechanizmy decyzyjne (z ang. decision-making mechanisms), to interfejsy użytkownika (z ang. user interface) i integracji zostały zbudowane w sposób umożliwiający ich obsługę przez osoby nie posiadające zaawansowanej wiedzy programistycznej. Pozwala to na wykorzystanie agentów AI przez szerokie grono użytkowników i firm, a agentom AI na działanie, percepcję, rozumienie i uczenie się oraz działanie w środowisku dynamicznie zmieniającym się w celu realizacji złożonych zadań, takich jak np. automatyzacja zakupów i płatności konsumenckich czy autonomiczne poruszanie się.

Bartosz Radziszewski

Inne artykuły tego cyklu

O technicznych aspektach LLM-ów i AI dla nieinformatyków, cz. 1. „Retrieval-Augmented Generation (RAG)”

O technicznych aspektach LLM-ów i AI dla nieinformatyków, cz. 2. „Model Context Protocol (MCP)”

O technicznych aspektach LLM-ów i AI dla nieinformatyków, cz. 3. „Automatyzacja zakupów konsumenckich”