Lugha Inayozalishwa na AI Inaanza Kuchafua Fasihi ya Kisayansi (2024)

Watafiti kutoka Ufaransa na Urusi wamechapisha utafiti unaoonyesha kuwa utumiaji wa jenereta za maandishi zinazoendeshwa na AI kama vile GPT-3 zinaleta 'lugha ya kuteswa', nukuu za fasihi ambazo hazipo na dharula, utumiaji wa picha ambazo hazijathibitishwa katika njia zilizoheshimika hapo awali. uchapishaji wa fasihi mpya za kisayansi.

Pengine jambo la kuhangaisha zaidi ni kwamba karatasi zilizochunguzwa pia zina maudhui yasiyo sahihi kisayansi au yasiyoweza kuzalishwa tena yaliyowasilishwa kama matunda ya utafiti wa kimalengo na wa kimfumo, ikionyesha kwamba modeli za lugha za uzalishaji zinatumiwa sio tu kuimarisha ujuzi mdogo wa Kiingereza wa waandishi wa karatasi hizo. lakini kwa kweli kufanya kazi ngumu inayohusika (na, bila kubadilika, kuifanya vibaya).

The kuripoti, iliyopewa jina Maneno ya kuteswa: Mtindo wa uandishi wa kutiliwa shaka unaojitokeza katika sayansi, imeandaliwa na watafiti kutoka Idara ya Sayansi ya Kompyuta katika Chuo Kikuu cha Toulouse na mtafiti wa Yandex Alexander Magazinov, kwa sasa katika Chuo Kikuu cha Tel Aviv.

Utafiti huo unalenga hasa ukuaji wa machapisho ya kisayansi ya AI yasiyo na maana katika Jarida la Elsevier Microprocessors na Microsystems.

Kwa Jina Lingine Lolote

Miundo ya lugha inayojirudia kama vile GPT-3 imefunzwa kwa wingi wa data, na imeundwa kufafanua, kufupisha, kukusanya na kufasiri data inayochangia katika miundo ya lugha genereshi ambayo inaweza kuzaliana na mifumo asilia ya usemi na uandishi, huku ikihifadhi ile asilia. nia ya data ya mafunzo.

Kwa kuwa mifumo kama hii mara nyingi huadhibiwa katika hatua ya mafunzo ya kielelezo kwa kutoa urejeshaji wa moja kwa moja na 'usio kufyonzwa' wa data asili, bila shaka hutafuta visawe - hata kwa vifungu vilivyothibitishwa vyema.

Mawasilisho ya kisayansi yanayoonekana kuwa yaliyoundwa/kusaidiwa na AI yaliyogunduliwa na watafiti ni pamoja na idadi ya ajabu ya majaribio yaliyofeli ya visawe bunifu vya misemo inayojulikana katika sekta ya kujifunza mashine:

mtandao wa neva wa kina: 'shirika kubwa la neva'
mtandao wa neva bandiak: '(bandia | ghushi) shirika la neva'
mtandao wa simu: 'shirika lenye mambo mengi'
mashambulizi ya mtandao: 'shirika (vizio | shambulio)'
muunganisho wa mtandao: 'chama cha ushirika'
data kubwa: '(kubwa | kubwa | kubwa | kubwa) habari'
ghala la data: 'habari (chumba | kituo cha usambazaji)'
akili bandia (AI): 'fahamu (ya bandia | iliyotengenezwa na binadamu)'
utendaji wa juu wa kompyuta: 'wasomi wasomi'
ukungu/ ukungu/ kompyuta ya wingu: 'uchungu wa ukungu'
kitengo cha usindikaji wa michoro (GPU): 'kitengo cha kuandaa miundo'
kitengo cha usindikaji cha kati (CPU): 'kitengo cha maandalizi cha msingi'
injini ya mtiririko wa kazi: 'motor mchakato wa kazi'
utambuzi wa uso: 'kukiri usoni'
utambuzi wa sauti: 'makubaliano ya hotuba'
maana ya makosa ya mraba: 'mraba wa maana (kosa | blunder)'
maana kosa kabisa: 'maana (moja kwa moja | mkuu) (kosa | blunder)'
ishara kwa kelele: '(mwendo | bendera | kiashirio | ishara | ishara) hadi (kelele | kelele | kelele)'
vigezo vya kimataifa: 'vigezo duniani kote'
ufikiaji wa nasibu: '(kiholela | isiyo ya kawaida) pata haki ya kupita'
msitu wa nasibu: '(kiholela | isiyo ya kawaida) (mbao za nyuma | timberland | eneo zuri)'
thamani ya nasibu: '(kiholela | isiyo ya kawaida) heshima'
koloni ya mchwa: 'mdudu wa chini ya ardhi (jimbo | mkoa | eneo | eneo | makazi)'
koloni ya mchwa: 'kitambaa cha chini ya ardhi (jimbo | mkoa | eneo | eneo | makazi)'
nishati iliyobaki: 'mabaki ya uhai'
nishati ya kinetic: 'motor vitality'
naïve Bayes: '(wasioamini | wasio na hatia | wadanganyika) Bayes'
msaidizi wa kibinafsi wa dijiti (PDA): 'mshiriki wa kibinafsi wa kompyuta'

Mnamo Mei 2021 watafiti waliuliza vipimo injini ya utafutaji ya kitaaluma katika kutafuta aina hii ya lugha potofu, iliyojiendesha, kwa uangalifu wa kutojumuisha vifungu vya maneno halali kama vile 'maelezo makubwa' (ambayo ni maneno halali, na si kisawe kisichofaulu cha 'data kubwa'). Katika hatua hii waliona kwamba Microprocessors na Microsystems ilikuwa na idadi kubwa zaidi ya matukio ya kufafanua vibaya.

Kwa wakati huu, bado inawezekana pata (picha ya kumbukumbu, 15/07/2021) karatasi kadhaa za kisayansi za msemo usio na maana 'upangaji wa neva wa kina' (yaani 'deep neural network'), na nyinginezo katika orodha iliyo hapo juu hutoa vibao sawa.

Lugha Inayozalishwa na AI Inaanza Kuchafua Fasihi ya Kisayansi (1)

Matokeo ya utafutaji ya 'profound neural organization' ('deep neural network') katika Vipimo. Chanzo: https://app.dimensions.ai/

The Microprocessors jarida lilianzishwa mnamo 1976, na kubadilishwa jina kuwa Microprocessors na Microsystems miaka miwili baadaye.

Ukuaji wa Lugha ya Upuuzi

Watafiti walisoma kipindi cha kuanzia Februari 2018 hadi Juni 2021, na waliona kupanda kwa kasi kwa kiasi cha mawasilisho katika kipindi cha miaka miwili iliyopita, na haswa katika kipindi cha miezi 6-8 iliyopita:

Lugha Inayozalishwa na AI Inaanza Kuchafua Fasihi ya Kisayansi (2)

Uwiano au sababu? Ongezeko la mawasilisho kwa jarida la Microprocessors na Microsystems linaonekana kuwiana na ukuaji wa maandishi 'ya kipuuzi' na visawe katika mawasilisho yanayoonekana kuheshimika. Chanzo: https://arxiv.org/pdf/2107.06751.pdf

Seti ya data ya mwisho iliyokusanywa na washiriki ina makala 1,078 yenye urefu kamili yaliyopatikana kupitia usajili wa Elsevier wa Chuo Kikuu cha Toulouse.

Kupungua kwa Uangalizi wa Uhariri kwa Karatasi za Kisayansi za Uchina

Jarida hilo linaona kwamba muda uliotengwa kwa ajili ya tathmini ya uhariri wa mawasilisho yaliyoalamishwa unapunguzwa kwa kiasi kikubwa mwaka wa 2021, na kushuka hadi chini ya siku 40; kupungua mara sita kwa muda wa kawaida wa ukaguzi wa rika, dhahiri kuanzia Februari 2021.

Idadi kubwa zaidi ya karatasi zilizoalamishwa hutoka kwa waandishi walio na uhusiano na Uchina Bara: kati ya karatasi 404 zilizokubaliwa kwa chini ya siku 30, 97.5% zinahusiana na Uchina. Kinyume chake, katika hali ambapo mchakato wa uhariri ulizidi siku 40 (karatasi 615), mawasilisho yaliyounganishwa na Uchina yaliwakilisha tu 9.5% ya kitengo hicho - usawa mara kumi.

Ripoti inahusisha kupenyeza kwa karatasi zilizoalamishwa na mapungufu katika mchakato wa uhariri, na uwezekano wa ukosefu wa rasilimali kutokana na kuongezeka kwa idadi ya mawasilisho.

Watafiti wanakisia kwamba modeli za uzalishaji za mtindo wa GPT, na aina sawa za mifumo ya uundaji wa lugha, zimetumika kutoa maandishi mengi katika karatasi zilizoalamishwa; hata hivyo, njia ambayo modeli ya uzalishaji huchota vyanzo vyake hufanya hili kuwa gumu kuthibitisha, na ushahidi mkuu upo katika tathmini ya akili ya kawaida ya visawe duni na visivyo vya lazima, na uchunguzi wa kina wa upatanishi wa kimantiki wa uwasilishaji.

Watafiti zaidi wanaona kuwa mifano ya lugha za uzalishaji ambayo wanaamini kuwa inachangia mafuriko haya ya upuuzi ina uwezo sio tu wa kuunda maandishi yenye shida, lakini pia kuyatambua na kuyaweka alama kwa utaratibu, kama vile watafiti wenyewe wamefanya. kwa mikono. Kazi inaelezea utekelezaji kama huu, kwa kutumia GPT-2, na inatoa mfumo wa mifumo ya siku zijazo ili kutambua mawasilisho ya kisayansi yenye matatizo.

Matukio ya mawasilisho 'yaliyochafuliwa' ni ya juu zaidi katika jarida la Elsevier (72.1%) ikilinganishwa na majarida mengine yaliyosomwa (13.6% ya juu zaidi).

Sio Semantiki Tu

Watafiti hao wanasisitiza kwamba majarida mengi yanayozungumziwa hayatumii lugha mbaya tu, bali yana taarifa zisizo sahihi kisayansi, zinazoonyesha uwezekano kwamba modeli za lugha za uzalishaji hazitumiwi tu kuboresha ustadi mdogo wa lugha ya wanasayansi wanaochangia, lakini inaweza kuwa kweli. inatumika kuunda angalau baadhi ya nadharia za msingi na data kwenye karatasi.

Katika hali nyingine watafiti huweka 'usanifu upya' au 'kusokota' kwa ufanisi wa kazi ya awali iliyofichwa (na ya juu zaidi), ili kukidhi shinikizo za 'kuchapisha au kuangamia' tamaduni za utafiti wa kitaaluma, na ikiwezekana kuboresha viwango vya kitaifa vya kabla ya kimataifa. umaarufu katika utafiti wa AI, kupitia kiasi kikubwa.

Lugha Inayozalishwa na AI Inaanza Kuchafua Fasihi ya Kisayansi (3)

Maudhui yasiyo ya maana katika karatasi iliyowasilishwa. Katika kesi hii, watafiti waligundua kuwa maandishi yamechukuliwa, ad hoc, kutoka kwa Nakala ya EDN, ambapo kielelezo kinachoambatana pia kimeibiwa bila kuhusishwa. Uandishi upya wa maudhui asili umekithiri sana hivi kwamba unaweza kuyafanya kuwa yasiyo na maana.

Kuchanganua karatasi kadhaa zilizowasilishwa za Elsevier, watafiti walipata sentensi ambazo walishindwa kukisia maana yoyote; marejeleo ya fasihi ambayo haipo; marejeleo ya viambajengo na nadharia katika fomula ambazo hazikuonekana katika nyenzo shirikishi (kupendekeza ufupisho unaotegemea lugha, au 'kuona macho' ya data inayoonekana kuwa ya kweli); na utumiaji upya wa picha bila kutambuliwa kwa vyanzo vyake (ambavyo watafiti hawavikosoi kwa mtazamo wa hakimiliki, bali kama kiashirio cha ukali usiotosheleza wa kisayansi).

Kushindwa kwa Manukuu

Manukuu yaliyokusudiwa kuunga mkono hoja katika karatasi ya kisayansi yalipatikana katika mifano mingi iliyoalamishwa kuwa 'imevunjwa au kupelekea machapisho yasiyohusiana'.

Zaidi ya hayo, marejeleo ya 'kazi inayohusiana' inaonekana mara nyingi hujumuisha waandishi ambao watafiti wanaamini kuwa 'waliangaziwa' na mfumo wa mtindo wa GPT.

Tahadhari ya kutangatanga

Upungufu mwingine wa hata miundo ya lugha ya hali ya juu kama vile GPT-3 ni tabia yao ya kupoteza mwelekeo katika mazungumzo marefu. Watafiti waligundua kuwa karatasi zilizo na alama mara nyingi huleta mada mapema kwenye karatasi ambayo kwa kweli hairudishwi baada ya kuchapishwa hapo awali katika maelezo ya awali au mahali pengine.

Pia wananadharia kuwa baadhi ya mifano mibaya zaidi hutokea kupitia safari nyingi za matini chanzi kupitia msururu wa injini za tafsiri, kila moja ikipotosha maana zaidi.

Vyanzo na Sababu

Katika kujaribu kubaini ni nini kilicho nyuma ya jambo hili, waandishi wa karatasi wanapendekeza uwezekano kadhaa: yaliyomo kutoka. viwanda vya karatasi zinatumika kama nyenzo chanzo, zikianzisha dosari mapema sana katika mchakato ambao bila shaka utaleta dosari zaidi; kwamba zana za kusokota makala kama vile Spinbot zinatumika kuficha wizi; na kwamba shinikizo kubwa la kuchapisha mara kwa mara linasababisha watafiti wasio na nyenzo kidogo kutumia mifumo ya mtindo wa GPT-3 ili kuongeza au kutoa karatasi mpya za kitaaluma.

Watafiti hufunga kwa wito wa kuchukua hatua kwa uangalizi mkubwa na viwango vilivyoboreshwa katika eneo la uchapishaji wa kitaaluma ambalo linathibitisha, dhahiri, kuwa lishe ya mada yake - mifumo ya kujifunza ya mashine. Pia wanaapisha Elsevier na wachapishaji wengine kuanzisha taratibu kali zaidi za uchunguzi na ukaguzi, na kukosoa kwa upana viwango na mazoea ya sasa katika suala hili, wakipendekeza kwamba 'Udanganyifu kwa maandishi ya maandishi unatishia uaminifu wa fasihi ya kisayansi.'

Lugha Inayozalishwa na AI Inaanza Kuchafua Fasihi ya Kisayansi (2024)
Top Articles
Latest Posts
Article information

Author: Jamar Nader

Last Updated:

Views: 6529

Rating: 4.4 / 5 (75 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Jamar Nader

Birthday: 1995-02-28

Address: Apt. 536 6162 Reichel Greens, Port Zackaryside, CT 22682-9804

Phone: +9958384818317

Job: IT Representative

Hobby: Scrapbooking, Hiking, Hunting, Kite flying, Blacksmithing, Video gaming, Foraging

Introduction: My name is Jamar Nader, I am a fine, shiny, colorful, bright, nice, perfect, curious person who loves writing and wants to share my knowledge and understanding with you.