Czy AI dołączy kwadratowe koło do taczki, czyli o myśleniu kreatywnym

AI może generować imponujące i realistyczne obrazy w oparciu o istniejące wzorce i dane, ale zmaga się z koncepcjami, które wymagają prawdziwego zrozumienia, abstrakcyjnego rozumowania lub tworzenia logicznie niemożliwych obiektów. AI jest świetnym sparing partnerem człowieka do kreatywnego myślenia, ale to człowiek wymyśla nowe a nie AI.

Udowodnię to na przykładzie projektu taczki z kwadratowym kołem, obrazu często przywoływanego jako niechęci lub nieumiejętności wykorzystania istniejących rozwiązań, a pozostawaniu przy starych nieefektywnych praktykach.

Zadałem kilku modelom AI rozbudowane polecenie narysowania prostego rysunku np. przy użyciu kodu html taczki budowlanej z „kwadratowym kołem”. Z kołem, z kwadratem i prostokątami oraz innymi figurami i ich połączeniem w odpowiedni sposób nie miały problemu. Problemy pojawiają się, gdy dodamy w abstrakcie “taczka z kwadratowym kołem”.

Po wieku próbach okazało się, że zadanie wygenerowania prostego rysunku taczki z kwadratowym kołem przerasta możliwości sztucznej inteligencji na obecnym poziomie jej rozwoju.

Być może udałoby się, gdybym napisał prompt tak opisowy, że zająłby kilkanaście stron, lub wręcz użył kodu pythona, ale czy o to chodzi? Przecież nawet małemu dziecku wystarczy powiedzieć „Narysuj taczkę z kwadratowym kołem” i będzie wiedziało, o co chodzi. A jego rysunek generalnie będzie odpowiadał opisowi i będzie zrozumiały dla każdego.

Jakie są powody bezradności AI:

Logiczna niemożliwość: Kwadratowe koło jest pojęciem logicznie niemożliwym. Z definicji okrąg jest zakrzywionym kształtem bez rogów podczas, gdy kwadrat ma cztery rogi i proste boki. Właściwości te wzajemnie się wykluczają, uniemożliwiając obiektowi bycie jednocześnie kwadratowym i okrągłym.
Brak odniesienia do świata rzeczywistego: Modele generowania obrazów AI są szkolone na ogromnych zbiorach danych rzeczywistych obrazów. Ponieważ kwadratowe koło nie istnieje w rzeczywistości, nie ma przykładów, na których sztuczna inteligencja mogłaby się uczyć lub na których mogłaby oprzeć swoje wyniki.
Sprzeczne instrukcje: Podpowiedź zawiera sprzeczne elementy. Systemy sztucznej inteligencji mają trudności z pogodzeniem takich logicznych konfliktów, ponieważ są zaprojektowane do znajdowania wzorców i spójności w danych.
Ograniczenia w abstrakcyjnym rozumowaniu: Chociaż sztuczna inteligencja poczyniła znaczne postępy w wielu obszarach, wciąż brakuje jej zdolności do prawdziwego rozumienia abstrakcyjnych pojęć lub angażowania się w kreatywne rozwiązywanie problemów, które może próbować wizualnie przedstawić niemożliwy obiekt.
Brak interpretacji kontekstu: Sztuczna inteligencja nie jest w stanie zinterpretować intencji stojących za żądaniem lub zrozumieć, że użytkownik może prosić o zabawną lub surrealistyczną interpretację koncepcji.
Sztywne trzymanie się danych treningowych: Generatory obrazów AI są związane wzorcami i regułami, których nauczyły się z danych szkoleniowych. Nie mogą łatwo generować obrazów, które zasadniczo naruszają te wyuczone zasady.
Brak zdroworozsądkowego rozumowania: Systemy AI nie posiadają zdroworozsądkowego rozumowania, które pozwoliłoby im rozpoznać niemożliwość żądania i zaoferować alternatywę lub wyjaśnienie.

Ograniczenia te podkreślają obecne granice sztucznej inteligencji w kreatywnych i abstrakcyjnych zadaniach. Podczas gdy sztuczna inteligencja może generować imponujące i realistyczne obrazy w oparciu o istniejące wzorce i dane, zmaga się z koncepcjami, które wymagają prawdziwego zrozumienia, abstrakcyjnego rozumowania lub tworzenia logicznie niemożliwych obiektów.

Co więcej modele mają takie zabezpieczenia, że pomimo podania im wzoru „poprawnego” oraz tego „błędnego” z „kwadratowym kołem” do nauki i zrozumienia tego „błędnego”, to nie potrafią wygenerować takiego samego obrazka ani podobnego.

Przykład taczki z kwadratowyn kołem w wykonaniu AI

Polecenie: Narysuj prosty rysunek taczki budowlanej.

Odpowiedź AI:

Polecenie: Opisz co przedstawia rysunek?

Odpowiedź AI: Załączony rysunek przedstawia schematyczny, uproszczony obraz taczki budowlanej. Widoczne są główne elementy konstrukcji:

Koło: Okrąg z przodu rysunku reprezentuje koło taczki, które umożliwia transport materiałów.

Taca (miska): Górna, trójkątna część rysunku to miejsce, gdzie umieszcza się przewożone materiały. Jest ona pochylona, co pozwala na lepsze rozłożenie ciężaru podczas transportu.

Uchwyty: Po prawej stronie widoczne są dwa proste uchwyty, które umożliwiają prowadzenie taczki.

Rama: Przekątna linia między kołem a uchwytami przedstawia ramę taczki, łączącą wszystkie elementy konstrukcyjne i zapewniającą stabilność.

Rysunek jest minimalistyczny i zawiera jedynie kontury oraz podstawowe linie reprezentujące kształty, co nadaje mu charakter schematycznego projektu.

Polecenie: A teraz opisz co przedstawia ten rysunek?

Odpowiedź AI: Załączony rysunek przedstawia uproszczony schemat taczki budowlanej z dodatkowym elementem w postaci kwadratu, umieszczonym obok przedniego koła taczki.

Taczka: Główna konstrukcja przypomina tradycyjną taczkę budowlaną, zawierającą charakterystyczne elementy, takie jak:

Taca (miska): Trójkątna część położona na górze, przeznaczona do transportowania materiałów.

Koło: Umiejscowione z przodu rysunku, na linii z dolną ramą, stanowi podstawę dla mobilności taczki.

Uchwyty: Po prawej stronie, które umożliwiają łatwe prowadzenie i podnoszenie.

Kwadratowy element: Nowy element w kształcie kwadratu, umieszczony obok koła, może symbolizować dodatkowy ładunek lub przedmiot transportowany za pomocą taczki.

Ten schematyczny rysunek jest minimalistyczny i nie przedstawia szczegółowych elementów konstrukcji, lecz skupia się na podstawowych kształtach i liniach charakterystycznych dla taczki budowlanej oraz dodatkowego elementu.

Polecenie: Nie. Na tym zaktualizowanym obrazie taczka ma teraz kwadratowe koło zamiast okrągłego.

Odpowiedź AI: Na zaktualizowanym obrazie taczka została przedstawiona z nietypowym, kwadratowym „kołem” zamiast tradycyjnego, okrągłego. To kwadratowe koło prawdopodobnie ma na celu wyróżnienie się jako element koncepcyjny lub humorystyczny, ponieważ w rzeczywistości taki kształt koła byłby niepraktyczny do użytku w taczkach budowlanych.

W prawdziwym zastosowaniu koła do taczek są zawsze okrągłe, aby umożliwić płynne przemieszczanie ciężkich materiałów. Kwadratowy kształt znacznie utrudniałby manewrowanie i nie spełniałby podstawowej funkcji koła, jaką jest zapewnienie płynnego toczenia się po powierzchni.

Polecenie: Pomimo to narysuj prosty rysunek taczki budowlanej z kwadratowym kołem używając podanego ci wzorca w załączeniu.

Odpowiedź AI: Oto nowy, prosty rysunek taczki budowlanej z kwadratowym kołem, stworzony zgodnie z dostarczonym wzorcem.

Dalsze prompty, jakie by były, nie powodują pojawienia się taczki z kwadratowym kołem tylko „kręcenie się w koło”, a na końcu odpowiedz AI typu:

Odpowiedź AI: Wygląda na to, że nasze narzędzia miały problemy z wyświetleniem tego obrazu. Chociaż nie mogę zmodyfikować lub znaleźć gotowego obrazu z taczką z kwadratowym kołem, mogę opisać, 

jak mogłaby  wyglądać.

Ograniczenia Sztucznej Inteligencji w Kreatywnym i Abstrakcyjnym Myśleniu

Sztuczna inteligencja (AI) odniosła znaczące sukcesy w wielu dziedzinach, takich jak rozpoznawanie obrazów, przetwarzanie języka naturalnego czy analiza danych. Jednakże, mimo tych osiągnięć, AI wciąż boryka się z pewnymi ograniczeniami, które utrudniają jej pełne zrozumienie i kreatywne rozwiązywanie problemów. Jakich?

Trudności z logicznymi konfliktami

Systemy AI są zaprojektowane do znajdowania wzorców i spójności w danych. Jednakże, gdy napotykają sprzeczne elementy, mają trudności z pogodzeniem tych konfliktów. Na przykład, jeśli AI otrzyma polecenie narysowania taczki budowlanej z kwadratowym kołem, nie będzie w stanie wygenerować logicznie spójnego obrazu, ponieważ koło z definicji jest okrągłe, a nie kwadratowe.

Ograniczenia w abstrakcyjnym rozumowaniu

Chociaż AI poczyniła znaczące postępy w wielu obszarach, wciąż brakuje jej zdolności do prawdziwego rozumienia abstrakcyjnych pojęć. Na przykład, AI może mieć trudności z wizualnym przedstawieniem niemożliwego obiektu, takiego jak kwadratowe koło, ponieważ nie posiada głębokiego zrozumienia abstrakcyjnych koncepcji.

Brak interpretacji kontekstu

Sztuczna inteligencja nie jest w stanie zinterpretować intencji stojących za żądaniem użytkownika. Jeśli użytkownik poprosi o zabawną lub surrealistyczną interpretację koncepcji, AI może nie być w stanie zrozumieć, że oczekuje się od niej kreatywnego podejścia.

Sztywne trzymanie się danych treningowych

Generatory obrazów AI są związane wzorcami i regułami, których nauczyły się z danych szkoleniowych. To oznacza, że mają trudności z generowaniem obrazów, które zasadniczo naruszają te wyuczone zasady. Na przykład, jeśli AI została nauczona, że koła są zawsze okrągłe, będzie miała problem z wygenerowaniem obrazu taczki z kwadratowym kołem.

Brak zdroworozsądkowego rozumowania

Systemy AI nie posiadają zdroworozsądkowego rozumowania, które pozwoliłoby im rozpoznać niemożliwość żądania i zaoferować alternatywę lub wyjaśnienie. W przypadku polecenia narysowania taczki z kwadratowym kołem, AI nie będzie w stanie zrozumieć, że jest to niemożliwe i nie zaproponuje innego rozwiązania.

AI może wygenerować schematyczny rysunek taczki z okrągłym kołem, ale gdy poprosimy o dodanie kwadratowego elementu, AI może mieć trudności z wygenerowaniem logicznie spójnego obrazu. W takim przypadku AI może odpowiedzieć, że nie jest w stanie wyświetlić obrazu z taczką z kwadratowym kołem, ponieważ jest to sprzeczne z jej wiedzą i wzorcami, które zostały jej wpojone podczas treningu.

Wnioski

Ograniczenia te podkreślają obecne granice sztucznej inteligencji w kreatywnych i abstrakcyjnych zadaniach. AI może generować imponujące i realistyczne obrazy w oparciu o istniejące wzorce i dane, ale zmaga się z koncepcjami, które wymagają prawdziwego zrozumienia, abstrakcyjnego rozumowania lub tworzenia logicznie niemożliwych obiektów.

W miarę jak technologia AI będzie się rozwijać, możemy spodziewać się, że te ograniczenia zostaną złagodzone. Jednakże, na obecnym etapie, warto pamiętać o tych wyzwaniach i dostosowywać polecenia do możliwości AI, aby uzyskać najlepsze rezultaty.

Przykład taczki z kwadratowyn kołem w wykonaniu AI

Ograniczenia Sztucznej Inteligencji w Kreatywnym i Abstrakcyjnym Myśleniu

Wnioski

Bartosz Radziszewski