ChatGPT-4 Turbo zdobył 46% punktów w teście sprawdzającym wiedzę i zrozumienie historii, co stanowi znacznie gorszy wynik niż ten osiągany przez osobę z tytułem doktora. Choć program zna liczne fakty, ma trudności z ich właściwą interpretacją – wynika z nowych badań.
Zespół naukowców z Complexity Science Hub (CSH) w Wiedniu, który od dziesięciu lat tworzy bazę danych Seshat Global History Databank, postanowił sprawdzić, czy chatboty oparte na sztucznej inteligencji mogłyby wspierać historyków i archeologów w gromadzeniu informacji oraz lepszym rozumieniu przeszłości.
Wraz z międzynarodową grupą ekspertów ocenili różne wersje ChatGPT-4, Llama oraz Gemini.
„Duże modele językowe (LLM), takie jak ChatGPT, osiągnęły duży sukces w niektórych dziedzinach, na przykład w zastępowaniu asystentów prawnych. Jednak jeśli chodzi o ocenę cech dawnych społeczeństw, szczególnie tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone” – mówi prof. Peter Turchin z CSH, autor badania zaprezentowanego na konferencji NeurIPS.
„Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że modele, które testowaliśmy, wykazały się słabością. Wynik pokazuje, że sztuczna inteligencja działa w sposób specyficzny dla danego obszaru. LLM radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo słabo w porównaniu do ludzi” – dodaje.
GPT-4 Turbo, który uzyskał najlepszy wynik, zdobył 46% w teście z pytaniami wielokrotnego wyboru.
Zgodnie z opinią prof. Turchina i jego zespołu, choć ten wynik stanowi poprawę w porównaniu do bazowego poziomu 25% wynikającego z przypadkowego zgadywania, wskazuje on na istotne braki w zrozumieniu wiedzy historycznej przez sztuczną inteligencję.
(Fot. Unsplash)