Тјуринг тестот, кој го разработи пионерот на компјутерската наука Алан Тјуринг, е широко познат мисловен експеримент кој служи како индикатор за напредокот во вештачката интелигенција. Сепак, многумина погрешно сметаат дека тој е доказ дека машините всушност размислуваат.
После бројни шпекулации за тоа до каде досега моменталната интелигенција на јазичниот модел ChatGPT и дали треба да бидеме загрижени, го прашавме лично ChatGPT да ни даде одговор на тоа до каде се неговите моментални можности и како изгледа тоа ако се спореди со IQ кај луѓето. И на крај – може ли да го помине Тјуринговиот тест.
– Најновата верзија на ChatGPT вклучително и онаа базирана на моделот GPT-4-turbo нема IQ како човек, но ако мора да се спореди со човечко „ниво на интелигенција“, еве како стојат работите според тестови и мерења, вели ChatGPT во нашиот разговор и појаснува:
Стандарден IQ тест (пример: WAIS, SAT, LSAT)
GPT-4 има постигнато резултати што одговараат на IQ од околу 130–150. Тоа е паметно колку врвен студент на елитен универзитет, или топ 1–2% од популацијата.
Академски тестови
SAT (за универзитет во САД): ~99-ти перцентил (статистичка мерка што покажува за колку проценти една вредност отстапува од групниот просек.)
LSAT (за правен факултет): ~88–90-ти перцентил
GRE (за постдипломски студии): речиси максимални резултати во вербалниот дел
Иако „памет“ може да се мери со вакви тестови, GPT нема свест, емоции, интуиција или контекст надвор од тоа што е тренирано, вели ChatGPT.
Јас „знам“ многу, но не „разбирам“ како човек. Добар сум во решавање задачи, логика, пишување и одговарање, но не сум личност со чувства и искуства.
GPT-4 може успешно да решава комплексни логички и математички задачи, на ниво на IQ тестови од типот Raven’s Progressive Matrices или Mensa.
На вакви тестови може да достигне IQ од 130–140, што одговара на највисоките 2% од популацијата (Mensa праг).
Академски и професионални тестови:
Тест | GPT-4 резултат | Ранг / перцентил |
SAT (САД универзитет) | >1400 од 1600 | Топ 1% |
GRE Verbal | 170 (максимум) | Топ 1% |
GRE Quantitative | ~163–170 | Топ 10–15% |
LSAT (за правен факултет) | 163–170 од 180 | 88–95-ти перцентил |
MCAT (медицина) | Среден резултат (особено добар во логички дел) | Силен, но не врвен во биологија |
USMLE (медицина САД) | Положува прв степен на тестот | Како студент од мед. факултет |
Креативност и пишување
GPT-4 може да пишува есеји, раскази, сценарија, правни документи, истражувачки трудови, со речиси човечка квалитет.
Не е „креативен“ во смисла на емоционална инспирација, но има фантастична вештина за стил, жанр и структура.
Јазична интелигенција
Може да чита, разбира и преведува десетици јазици со висок квалитет (на ниво на универзитетски преведувач).
Разбира фини нијанси во јазик, хумор, иронија и контекст — што е клучен аспект на емоционална интелигенција.
Но… што НЕ може GPT-4?
Нема реално свесно искуство, чувства, интуиција или животна логика.
Не може да набљудува свет, нема тело, не доживува последици.
Сè што знае е базирано на податоци и модели, не на сопствено искуство.
Може ли да го помине Тјуринговиот тест?
ChatGPT вели – Во некои ситуации – да, можам да поминам Тјурингов тест. Но со важно „звездичка“: тоа зависи од поставените услови и колку долго трае тестот.
Што е Тјурингов тест?
Алан Тјуринг го предложил овој тест во 1950. Идејата е: Ако една машина може да комуницира со човек преку текст и човекот не може да каже дали зборува со машина или човек — тогаш таа машина покажува „интелигенција“.
Може ли GPT-4 да го излаже човекот?
Да, во кратки или умерено долги разговори, многу луѓе би помислиле дека зборуваат со човек.
GPT-4: Разбира нијанси, хумор, иронија. Го одржува контекстот. Покажува емоционална интелигенција (симулирана). Има „стил на личност“ и може да глуми различни карактери.
Што го издава?
Нема лична меморија или искуство.
Не знае што не знае – па може да измисли одговори.
При долго испрашување, се гледа дека е модел: прецизен, инференцијален, но не и човек.
Ако се бараат мислења, чувства, се гледа симулација, не искуство.
Заклучокот е дека GPT-4 може да го помине Тјуринговиот тест во многу случаи.
Но, ако човекот знае што бара, и ако тестот трае доволно долго, разликите сепак излегуваат на виделина, вели самиот Chat GPT.
П. С. При нашето тестирање GPT 4 не го помина Тјуринговиот тест. Падна на петтото прашање и тоа го призна:
Што велат научниците?
Најновото истражување од научници на Универзитетот во Калифорнија, Сан Диего, открива дека најновиот јазичен модел на OpenAI, GPT-4.5, има способност да ги измами луѓето во мислењето дека разговараат со вистинска личност преку текст, и тоа дури и повеќе отколку што би можел да направи човек при обид да убеди друга личност дека е вистински човек.
Но, дури и истражувачите признаваат дека победувањето на Тјуринг тестот не мора да значи дека е постигната „вештачка општа интелигенција“ или AGI – ниво на компјутерска обработка еквивалентно на човечката мисла.
Научникот за вештачка интелигенција Мелани Мичел, професорка на Институтот Санта Фе, Ново Мексико, во научното списание Science, напиша дека Тјуринг тестот е помалку тест за интелигенција сам по себе, а повеќе тест за човечки претпоставки. И покрај високите резултати на тестот, „способноста да звучи течно на природен јазик, е како и играњето шах, и тоа не е убедлив доказ за општата интелигенција“, напиша Мичел.
Најновиот труд на оваа тема е од Камерон Џонс и Бенџамин Берген од УС Сан Диего, објавен на arXiv минатата недела, насловен како „Моделите на големи јазици го поминуваат Тјуринг тестот“, експериментот што Џонс и Берген го водат со години со учество на студенти од Универзитетот во Сан Диего од катедрата.
Како што забележуваат авторите, на овој проблем се работи со децении. До денес има „повеќе од 800 посебни тврдења и контрааргументи“ за компјутерите кои го положиле Тјуринг тестот.
Ј. Ѓорѓиоски