Czy sztuczna inteligencja zda egzamin lub test?

Spis treści:

Dlaczego nie należy ufać wynikom testów ChatGPT
Dlaczego sztuczna inteligencja to amator, a nie ekspert

Dowiedz się: Zawód metodyka od podstaw do PRO

W ciągu ostatnich sześciu miesięcy widzieliśmy wiele wiadomości o tym, jak ChatGPT i podobne boty oparte na dużych modelach językowych radzą sobie ze złożonymi egzaminami online, w tym testami z medycyny i zarządzania. Na pierwszy rzut oka może się to wydawać triumfem sztucznej inteligencji nad ludzkimi możliwościami. Jeśli sztuczna inteligencja pomyślnie zda takie testy, może to sprawiać wrażenie, że rzeczywiście posiada umiejętności i wiedzę. Jeremy Rochelle, dyrektor wykonawczy ds. badań nad naukami o uczeniu się w Digital Promise i członek Międzynarodowego Towarzystwa Nauk o Uczeniu się, nie zgadza się z twierdzeniem, że możliwości sztucznej inteligencji można porównywać z możliwościami człowieka. W swoim felietonie na blogu Association for Computing Machinery podkreśla niewłaściwość takich porównań, zwłaszcza w kontekście egzaminów. Rochelle podkreśla, że sztuczna inteligencja i ludzie mają zasadniczo różne podejścia do uczenia się i oceny. Sztuczna inteligencja operuje algorytmami i danymi, podczas gdy ludzkie poznanie uwzględnia aspekty emocjonalne i społeczne. Ta analiza wyraźnie pokazuje, że porównywanie wyników sztucznej inteligencji i człowieka w kontekście edukacyjnym nie odzwierciedla rzeczywistego obrazu.

Dyrektor wykonawczy ds. badań nad naukami o uczeniu się w Digital Promise i członek Międzynarodowego Towarzystwa ds. Uczenia się Posiada bogate doświadczenie w dziedzinie nauk ścisłych, technologii edukacyjnych i badań. Jego praca koncentruje się na podnoszeniu jakości edukacji z wykorzystaniem innowacyjnych metod i podejść. W ramach swojej działalności aktywnie uczestniczy w opracowywaniu i wdrażaniu skutecznych praktyk edukacyjnych, które rozwijają naukę o uczeniu się. Członkostwo w Międzynarodowym Towarzystwie Nauk o Uczeniu się podkreśla jego zaangażowanie we współpracę międzynarodową i dzielenie się wiedzą w tej dziedzinie.

Dlaczego nie należy ufać wynikom testów ChatGPT

Jeremy Rochelle sugeruje przypomnienie procesu tworzenia testów egzaminacyjnych, zwłaszcza w kontekście amerykańskiego systemu edukacji, który ChatGPT czasami rozwiązuje tak skutecznie. Zrozumienie tego procesu pomoże ocenić, jak sztuczna inteligencja radzi sobie z zadaniami i jakie metody są stosowane do ich tworzenia, co jest ważne dla ich dalszego doskonalenia.

Testowanie opiera się na psychometrii i nowoczesnych metodach oceny. Metody te pozwalają określić prawdopodobieństwo prawidłowych odpowiedzi respondentów na zadania o różnym stopniu trudności. Proces tworzenia testu rozpoczyna się od stworzenia obszernego banku pytań egzaminacyjnych. Pytania te są następnie testowane na grupie prawdziwych uczniów, a nie na maszynach. Na podstawie wyników specjaliści oceniają, jak skutecznie test potrafi określić poziom wiedzy i umiejętności uczestników w danym obszarze. Ważne jest, aby pytania testowe rzeczywiście odzwierciedlały umiejętności osób zdających. W związku z tym z egzaminu wykluczane są pytania, które nie dostarczają informacji o różnicach w wiedzy, a te, które skutecznie realizują to zadanie, są zachowywane. Takie podejście zapewnia wysoką dokładność i rzetelność testów.

Trafność testu jako miary ludzkich zdolności oceniana jest na podstawie danych empirycznych. Należy zauważyć, że współczesna teoria testów nie gwarantuje, że ta trafność dotyczy obiektów innych niż ludzie, takich jak algorytmy sztucznej inteligencji czy hipotetyczni kosmici. Ponieważ modele sztucznej inteligencji reagują na zadania testowe inaczej niż ludzie, nie można zakładać, że wysoki wynik testu wskazuje na wysoki poziom inteligencji modelu sztucznej inteligencji. Współczesna teoria testów nie dysponuje danymi niezbędnymi do precyzyjnego rozróżnienia modeli sztucznej inteligencji o wysokiej i niskiej inteligencji.

Badacz podkreśla inną ważną cechę testów, która komplikuje porównania między zdolnościami „robotów” a ludźmi: wnioski wyciągane przez programistów na podstawie ograniczonej liczby zadań i ich formatów wymagają potwierdzenia. Oznacza to, że wyniki muszą zostać porównane z innymi metrykami. Jeśli metryki wykazują podobieństwo, można założyć, że wnioski są prawidłowe. Inne wskaźniki odnoszą się jednak raczej do ludzkich zdolności, wiedzy i umiejętności niż do sztucznej inteligencji. Dlatego też pełna analiza musi uwzględniać kontekst i różnorodność doświadczeń ludzkich, co jeszcze bardziej utrudnia porównania ze sztuczną inteligencją.

Kadr z filmu „Robot i Frank” / Dog Run Pictures / Park Pictures

Jeremy Rochelle podkreśla, że nie ma gwarancji, że wnioski wyciągnięte z konkretnego zestawu zadań, takich jak testy prawnicze, będą prawdziwe w przypadku osób niebędących ludźmi. Podważa to trafność oceny wiedzy, umiejętności i zdolności niezbędnych do udanej kariery prawniczej.

Czytaj także:

Psychometrycy wyjaśnili, jak skutecznie wykorzystywać sieci neuronowe do tworzenia testów edukacyjnych. Zastosowanie technologii sieci neuronowych w procesie edukacyjnym otwiera nowe możliwości rozwoju wysokiej jakości i adaptacyjnych materiałów testowych. Sieci neuronowe umożliwiają analizę dużych ilości danych uczniów, identyfikację ich mocnych i słabych stron oraz oferowanie zindywidualizowanych zadań. Dzięki temu proces uczenia się jest bardziej spersonalizowany i efektywny. Wprowadzenie sieci neuronowych do psychometrii przyczynia się do dokładniejszej oceny wiedzy i umiejętności uczniów, co ostatecznie prowadzi do poprawy wyników edukacyjnych.

Dlaczego sztuczna inteligencja jest amatorem, a nie ekspertem?

Jeśli testy nie są zaprojektowane dla sztucznej inteligencji, to dlaczego chatboty oparte na sztucznej inteligencji z powodzeniem je zdają? Odpowiedź brzmi: wiele testów jest standaryzowanych. Mają podobną formę, strukturę i treść, co znacznie ułatwia zadanie sztucznej inteligencji. Standaryzowane testy pozwalają sztucznej inteligencji łatwiej rozpoznawać wzorce i regularności, co przekłada się na wyższą trafność odpowiedzi. Podkreśla to wagę dostosowywania testów do bardziej złożonych i zróżnicowanych scenariuszy, aby rzetelnie ocenić możliwości sztucznej inteligencji.

Ekspert zauważa, że jest bardziej pod wrażeniem zdolności ChatGPT do interakcji z ludźmi w niestrukturyzowanych dialogach niż jego wyników w standaryzowanych testach. Standaryzowane testy mają jasne ramy i przewidywalną strukturę, przez co mniej odzwierciedlają rzeczywiste umiejętności. Pytanie brzmi, dlaczego ktoś miałby uważać model sztucznej inteligencji, który z powodzeniem radzi sobie w standaryzowanych testach, za bardziej efektywny niż taki, który wykazuje wysoką skuteczność w złożonych i niestandardowych sytuacjach. Podkreśla to wagę elastyczności i adaptacyjności sztucznej inteligencji w interakcjach w świecie rzeczywistym.

Jeremy Rochelle ilustruje, dlaczego sztuczna inteligencja nie może być uważana za eksperta, na przykładzie spotkania ze współtowarzyszem podróży – malarzem pokojowym, który zainteresował się fizyką. Pomimo samodzielnego studiowania fizyki za pomocą encyklopedii i prób łączenia różnych tematów, jego wiedza nie była systematyczna. Choć malarz posiadał pewną erudycję w tej dziedzinie, zasadnicza różnica między nim a prawdziwym ekspertem od fizyki była oczywista: nie potrafił uporządkować swojej wiedzy w spójne ramy. Głębokość naukowego rozumienia zależy właśnie od zdolności profesjonalisty do zrozumienia logiki i wzajemnych powiązań zjawisk, łącząc je z fundamentalnymi zasadami fizyki. Dlatego sztuczna inteligencja, pomimo swoich możliwości przetwarzania informacji, nie jest w stanie osiągnąć takiego samego poziomu zrozumienia, jak wykwalifikowany specjalista.

Zdjęcie: film „Mind Games” / Fastnet Films / Icon Entertainment

Nowoczesne duże modele językowe przypominają fizyków amatorów: potrafią odpowiadać na pytania, ale brakuje im głębokiego zrozumienia tematu. Sieci neuronowe pewnie operują na sekwencji słów w zdaniach, ale brakuje im prawdziwej kompetencji w rozważanych tematach. Według Jeremy'ego Rochelle'a pełne zrozumienie tych systemów jest wciąż dalekie.

Zdolność modelu lub algorytmu sztucznej inteligencji do zdania „ludzkiego” testu nie jest wiarygodnym wskaźnikiem jego wiedzy porównywalnym z wiedzą eksperta. Obecnie generatywna sztuczna inteligencja bardziej przypomina artystę, niż jesteśmy skłonni przyznać. Doniesienia o zdawaniu testów przez sztuczną inteligencję są mylące, ponieważ upraszczają istotę wiedzy eksperckiej w różnych dziedzinach. Ta sytuacja podkreśla znaczenie głębokiego zrozumienia i doświadczenia, których nie da się zastąpić powierzchownym poziomem umiejętności wykazywanym przez sztuczną inteligencję.

Rochelle jest przekonany, że ten problem należy aktywnie rozwiązać. Naukowcy muszą przekonać szerszą publiczność, że egzaminy nie są wiarygodnym narzędziem oceny mocnych stron sztucznej inteligencji i że porównywanie jej wyników z wynikami ludzkimi jest często niewłaściwe. Specjaliści do spraw edukacji również odgrywają w tym procesie kluczową rolę: ich zadaniem jest opracowywanie nowych formatów egzaminów i metod oceny umiejętności i wiedzy, które będą lepiej odzwierciedlać kompetencje w realnym świecie.

Dowiedz się więcej o edukacji na naszym kanale Telegram. Dołącz do nas!

Przeczytaj także:

Następny poziom sztucznej inteligencji: czym jest AGI, kiedy się pojawi i jak będzie wyglądać?
Opracowywanie testów edukacyjnych: instrukcje, jak to zrobić
6 powodów, dla których psychometria jest potrzebna w technologii edukacyjnej
Jak zastosować ChatGPT w edukacji: obszerna recenzja ekspertów

Zawód metodyka od poziomu początkującego do zaawansowanego

Zdobędziesz umiejętności w zakresie tworzenia programów nauczania dla kursów online i offline. Opanujesz nowoczesne praktyki nauczania, ustrukturyzujesz swoje doświadczenie i staniesz się bardziej poszukiwanym specjalistą.

Dowiedz się więcej