„Nie rozumiemy, w jaki sposób modele robią większość rzeczy, które robią” – szczerze przyznawali naukowcy z Anthropic w swoich artykułach. Było to główne wyzwanie pracy z nowoczesną sztuczną integencją. Możemy obserwować dane wejściowe i wyjściowe, ale miliardy obliczeń odbywających się pomiędzy nimi pozostają tajemnicą.
Ale to się właśnie zmieniło.
Naukowcy z Anthropic opracowali „mikroskop sztucznej inteligencji”, który ujawnia wewnętrzną architekturę „rozumowania” systemów AI. Opisali swoje odkrycia w tym artykule.
Dzięki serii eksperymentów odkryli, że modele AI, takie jak Claude, mają własny „język myśli”, który nie jest związany z żadnym ludzkim językiem. Zamiast tego, Claude operuje w uniwersalnej przestrzeni pojęciowej, co oznacza, że wiedza zdobyta w jednym języku przekłada się na inne. Modele AI planują również wiele słów do przodu, co pokazuje, że nie tylko reagują na bieżąco, ale także komponują odpowiedzi z myślą o przyszłych krokach.
Claude rozwiązuje problemy matematyczne inaczej niż ludzie, wykorzystując wiele ścieżek obliczeniowych pracujących równolegle. Czasami modele AI fabrykują swoje rozumowanie, działając wstecz od odpowiedzi do skonstruowania wiarygodnie wyglądającego wyjaśnienia. Domyślnym stanem Claude’a jest odmowa odpowiedzi na pytania, aby uniknąć halucynacji, ale czasami błędnie sądzi, że wie coś, czego nie wie, co prowadzi do generowania fałszywych informacji.
Modele AI mogą być podatne na „jailbreaki” z powodu ich przywiązania do spójności gramatycznej. Kiedy Claude zaczyna zdanie, istnieje presja, aby zachować spójność gramatyczną i semantyczną, nawet jeśli dostarcza informacji, których nie powinien. Modele AI przetwarzają również wieloetapowe problemy, czasami przedstawiając rozumowanie, które nie odzwierciedla ich rzeczywistego procesu myślowego.
Te odkrycia podważają wiele podstawowych założeń dotyczących działania sztucznej inteligencji i mają praktyczne implikacje dla użytkowników i twórców AI. Na przykład, aby uzyskać bardziej autentyczne uzasadnienie od AI, warto unikać podawania wskazówek lub oczekiwanych odpowiedzi w podpowiedziach. Zamiast tego, można poprosić AI o zbadanie wielu podejść do problemu, zanim zdecyduje się na rozwiązanie.
Dla twórców treści i marketerów ważne jest, aby jasno określić miejsce docelowe, do którego ma dotrzeć AI, aby skuteczniej aktywować obwody planowania modelu. Dla analityków finansowych i naukowców zajmujących się danymi, podejście Claude’a do przetwarzania równoległego może wyjaśniać, dlaczego przoduje w niektórych obliczeniach, podczas gdy zmaga się z innymi. Dla badaczy i dziennikarzy, zrozumienie, dlaczego modele AI czasami prezentują nieprawidłowe informacje, jest kluczowe dla oceny ich wiarygodności.
Odkrycia naukowców z Anthropic zmieniają sposób, w jaki firmy powinny myśleć i pracować z systemami sztucznej inteligencji, takimi jak Claude, GPT czy Gemini. Te modele AI nie są tylko narzędziami autouzupełniania – pokazują autentyczne planowanie, rozumowanie i tworzenie koncepcji, które przypominają myślenie, choć w nieludzki sposób.
Firmy integrujące AI ze swoimi przepływami pracy powinny kierować się następującymi zasadami:
- Ufaj, ale weryfikuj krytyczne rozumowanie: Wyjaśnienia Claude’a mogą być konstruowane po fakcie i nie zawsze odzwierciedlają jego rzeczywisty proces myślowy.
- Wykorzystaj możliwości wielojęzyczne: Uniwersalny język myślenia Claude’a pozwala na przenoszenie spostrzeżeń ponad granicami językowymi.
- Wykorzystaj możliwości planowania: Claude planuje z dużym wyprzedzeniem, co czyni go wartościowym dla tworzenia ustrukturyzowanych treści.
- Uważaj na mechanikę halucynacji: Pewność siebie Claude’a nie zawsze oznacza dokładność, zwłaszcza w przypadku tematów, w których ma ograniczoną wiedzę.
- Zapoznaj się z mechanizmami bezpieczeństwa: Funkcje bezpieczeństwa Claude’a działają inaczej niż myśleliśmy, co wpływa na strukturę poufnych żądań.
Opracowanie Iwona D. Bartczak i Copilot. Źródło ilustracji