A kisgyermekek nyelvét leginkább a lexikai-specifikus nyelvtanok írják le, nem pedig absztraktokat. • Alexander Berdichevsky • Tudományos hírek a "Elemekről" • Nyelvészet, Pszichológia

A kisgyermekek nyelvét legjobban a lexikai-specifikus nyelvtan írja le, nem pedig az absztrakt nyelveket.

Amikor a kisgyermekek elkezdenek beszélni, nem készítenek mondatokat a főnevekről, a melléknevekről és az igékről a hagyományos nyelvtani szabályoknak megfelelően, de használjanak kész mondatokat vagy mondatokat, és fokozatosan megtanulják helyettesíteni egy szót egy másikban. Fotó: s305.photobucket.com/albums/nn211/hetroclite

Amikor egy gyerek megtanulja az anyanyelvét, senki sem tudja igazán. Az ezt a folyamatot leíró elméletek különböznek attól, hogy mennyi absztrakt tudást tulajdonítanak a gyermeknek. Az amerikai-német kognitív csoport kimutatta, hogy a konkrét lexikai anyag modellje a gyermekek beszédének használatán alapszik, mint a teljesen absztrakt nyelvtanok. Útközben bizonyították, hogy a korral a "fejében" létező nyelvtana kevésbé egyedi; hogy három év alatt sokkal bonyolultabb, mint kettő; és hogy két év alatt a gyerekeknek már vannak ötleteik a főnév kategóriájáról, és három év alatt – az ige kategóriájáról.

Univerzális nyelvtan

A kognitív tudomány egyik legnehezebb problémája, ahogyan egy gyerek sikeresen elsajátít egy nyelvet.Elsősorban meglepő, hogy milyen gyorsan történik ez a helyzet, másrészt pedig, hogy milyen kevés külső információra van szüksége a gyermek számára ahhoz, hogy az egész nyelvi rendszert majdnem teljes egészében elsajátítsa.

Az ilyen képességek jelenlétét megmagyarázó hipotézisek egyfajta univerzális nyelvtani (HS) létezését jelentik. A HS az összes olyan nyelv közös szabályrendszere, amelyet egy személynek nem kell megtanulnia: a birtoklása egy veleszületett képesség.

Az UG leírását kísérő elméletek csúcspontja a 20. század 50-es éveiben kezdődött, Noam Chomsky amerikai nyelvésznek köszönhetően. Chomsky egyértelműen megfogalmazott egy hipotézist HS-t, és javaslatot tett egy nyelvi elméletre, amelyben leírható. Ez az elmélet – a generatív nyelvtan – óriási hatást gyakorolt ​​az összes modern nyelvészetre, és régóta domináns paradigmává vált.

Azonban senki sem sikerült létrehozni sem az UG jó leírását, sem azt az elméletet, amely leírná, hogy a gyermek miként tanul egy adott nyelv alapján. Idővel az UG hipotézis népszerűsége csökkent, sőt maga Chomsky is részben lemondott róla.

Mindazonáltal Chomsky korai elképzeléseinek hatása annyira nagy volt, hogy eddig a nyelvi alkotások jelentős része az ötletek és örökség ellentmondásainak szentelt.

Absztrakt kategóriák

Egy ilyen örökség példája az a fogalom, hogy a gyermek nyelvi kompetenciája számos elvont szabályt és kategóriát tartalmaz. A nyelvi kompetencia olyan rendszer, amely egy személy "fejében" létezik, és lehetővé teszi számára, hogy egy adott nyelven beszéljen.

A magazin legutóbbi kiadásában PNAS Colin Bannard az Austin-i Texas Egyetemen, valamint Elena Liven és Michael Tomasello a Leipzig-i Max Planck Evolúciós Antropológia Intézetével kétségbe vonta ezt az ötletet.

A Tomazello és Liven korábbi tanulmányai, valamint más szerzők munkája alapján a kutatók azt feltételezik, hogy a kisgyermekek nyelvi készsége teljesen eltér a felnőttekétól. Különösen az absztrakt kategóriák alig használhatók rá.

Az absztrakt kategória példája a beszéd része. Még akkor is, ha egy felnőtt anyanyelvi beszélő nem ismeri a feltételeket – mondjuk, az ige vagy főnév – még mindig felismeri, hogy a szavak séta, csinálni, tanulni viselkedik egy módon és az asztalra, a szék, egy cikket – másoknak. Az első osztályú szavak például különböző időkben vannak, és a második szövegek különböző esetekben vannak.

A kutatók hipotézise szerint a gyerekek nem ismerik ezt a két osztályt, de csak az egyes szavak viselkedését ismerik. E különleges tudás alapján fokozatosan elkezdik a generalizálást, először privát, majd egyre szélesebb körűen. Ennek megfelelően a nyelvi kompetenciát le kell írni, figyelembe véve ezt a tulajdonságot. Például lehetetlen bevezetni a szabályt: "az ige mindig összhangban van a személy és a szám főnevével", mivel helytelen az "ige" és "főnév" kategóriákkal való működésre.

Bannard, Liven és Tomazello feltaláltak egy módszert ennek a hipotézisnek a tesztelésére. Bannard tesztet végzett a gyermekek beszédének nagy testén.

Adatlap és hitelesítési módszer

Az adatok korpusa két gyermek beszéde volt: Annie és Brian. A kutatók 30 év beszédet készítettek és írták át kétéves és hároméves korú gyermekek esetében (a felvételeket a megfelelő születésnap után hat héten belül tették meg) A felvételek átírása két részre tagolt: egy teszt (két óra két év és egy óra három év alatt) és otthon (minden mást).

A CHAT formátumú gyermekek beszédének felvételeivel, amelyeket ő használ,Ez megtalálható a Child Data Data Exchange System (CHILDES) weboldalán. Sze Példa párbeszédre egy lány anyjával 2 év és 4 hónapos korban.

A legfontosabbat arra használták fel, hogy automatikusan alakítsanak ki egy formális nyelvtant (a formális nyelvtanokra, lásd alább), amely a gyermek nyelvi kompetenciáját modellezi. A speciális statisztikai módszerek segítségével a számítógép egy grammatikát eredményezett, amely a korpusz összes állítását generálta. Pontosabban, még csak egyetlen nyelvtant sem, csak kettőt.

Egy – teljesen elvont – a gyermek nyelvi kompetenciájával kapcsolatos hagyományos gondolatok alapján rendezték. Először a mondat absztrakt szintaktikai struktúráját hozza létre (lásd alább a CGG-1 leírását), majd a szavakat helyettesíti.

A második lexikai-specifikus – összhangban a kutatók véleményével. Nem teljesen absztrakt szintaktikai struktúrákat generál, hanem részben, konkrét szavakból álló részekből áll, amelyek részben olyan résekből (cellákból) származnak, amelyek más szavakkal vagy rendszerekkel vannak kitöltve.

Ezután mindkét nyelvtan tesztelték a tesztesetben. Kiderült, hogy a lexiko-specifikus nyelvtan jobban leírja, mint teljesen elvont.

Az alábbiakban leírjuk a nyelvtan generátorainak általános leírását – a formalizmusokat, amelyekre a kutatók támaszkodtak, majd a Bannard aktuális nyelvtanának leírása, majd a lefolytatott kísérletek és a kapott eredmények részletes leírása.

A nyelvtan generálása

Kontextusmentes nyelvtan

Általában nyelvtan Az X egy olyan szabályrendszer, amely bármely mondatra meghatározhatja, hogy egy adott mondat grammilag helyes-e X-ben, vagy ha nem, és ha igen, hogyan rendezik. Ha ez a rendszer formalizálható, és például megtanít egy számítógépet, akkor beszélnek róla formális nyelvtan.

A formális nyelvtanok leghíresebb osztályzata áramfejlesztő, vagy nemző, nyelvtanami ismét Chomsky munkáihoz vezetett. (Elvileg a "generatív nyelvtan" és a "generatív nyelvtani" ugyanaz, de Chomsky nyelvi elméletét rendszerint "generatív nyelvtannak" nevezik oroszul, és általában a formális nyelvtan típusa "generatív nyelvtan".) Generatív nyelvtan (PG) lehetővé teszi, hogy a nyelv minden megfelelő mondatát megjelenítse, és csak azokat. Az üvegházhatást okozó gáz az X → Y formájú generációs szabályok (termékek) csoportja (X megy Y-be).Amit a nyíl bal oldalán állítanak, az úgynevezett bal oldalon szabályokat, mi van a jobb oldalon, jobb oldalon. Chamsky legfontosabb feladata, emlékeztetünk arra, hogy megmagyarázza, hogy a gyerek hogyan képes beszélni a nyelvet (és megérteni), gyakorlatilag anélkül, hogy megtanulná. A PG-k leírják, hogy egy anyanyelvi beszélő hogyan generál mondatokat. Az üvegházhatást okozó gázok ösztönzői azt sugallják, hogy ez a valós kognitív mechanizmusok megfelelő modellje.

A PG-k nemcsak a generáláshoz, hanem az elemzéshez is alkalmasak: általában speciális algoritmusok használatával (lásd a CYK algoritmust) gyorsan meghatározható, hogy adott mondatot generál-e egy adott PG-ben (azaz nyelvtani szempontból helyes-e vagy sem).

Az üvegházhatást okozó gázok legfontosabb kategóriája összefüggésmentes nyelvtan (DRG). Egy KSG-ben a környezet baloldali környezetében soha nem befolyásolja a szekció bal oldali részét (szigorú értelemben a KSG bal oldalán mindig pontosan egy nem-terminális karakter szerepel).

Tekintsük a KSG-1 egyszerű grammatikáját, amely az angol nyelv egyes mondatainak szintaktikai struktúráját eredményezi (nyelvi "jelentése" minden formális szabály bal oldalán van):

szabályNyelvi értelmezés
1S → NP VPA mondat egy főnév és egy igei csoportból áll.
2NP → ART NA névcsoport egy cikkből és egy főnévből állhat …
3NP → N… vagy csak egy főnév …
4NP → ADJ N… vagy melléknév és főnév …
5NP → NP S*… vagy egy névleges csoportból és mondatból …
6NP → PRO… vagy egy névmásból.
7VP → V NPAz igecsoport egy ige és egy főnév kifejezést tartalmazhat.
8VP → V VP… vagy egy ige és egy igei csoport.

*Ügyeljen az 5. és a 8. szabályra: kifejezetten az üvegházhatást okozó gázok fontos tulajdonsága – a modellképesség rekurzív struktúrák nyelvet.

1. táblázat. Példa a kontextusmentes nyelvtanra. Az előadások szabályai (PDF, 175 Kb) James Allen

Az S karakter mindig bemenet, és fontolja meg, mi következhet be. Például:

S → NP VP (az 1. szabály szerint),

NP VP → PRO VP (a 6. szabály szerint),

PRO VP → PRO V NP (a 7. szabály szerint),

PRO V NP → PRO V ART N (a 2. szabály szerint).

Összességében a PRO V ART N. láncot hoztuk létre, a kérdés az, hogy hol van az angol nyelv ígért javaslata? Képzeljük el, hogy a CSG-t kiegészítjük az angol nyelv szótárával, és további szabályokat vezetünk be: N helyettesíthető bármilyen főnévvel, V – bármilyen igével stb. Vettem egy almát, Egy asztalt látott és ha igen, ha pontosan megjegyezzük, hogy miként eredtük meg ezt a mondatot, akkor megkapjuk szintaktikai struktúra. Az egyértelműség érdekében grafikusan ábrázoljuk a generációt:

Ábra. 1. A javaslat elemzése a KSG-1-ben

Felhívtuk a felépített struktúrát a közvetlen komponensek fája. A fa áll csomós. A tapasztalat azt mutatja, hogy ez a mondat szintaktikai felépítésének jó modellje, legalábbis olyan nyelvész szemszögéből, aki csak egy nyelv leírásával foglalkozik. Mennyire jól tükrözi, hogy mi történik az agyban, a kérdés sokkal összetettebb.

Nyilvánvaló, hogy a KSG-1-ben az ART, ADJ, N, PRO és V szimbólumok terminál: nem tudnak a szabályok bal oldalán állni. A KSG-1 bármely végterméke e karakterek sorozata lesz. S, NP és VP nemterminális karakterek: minden végső létrehozott sorrendben nem lesznek. Ez logikus: a terminál szimbólumok a beszéd egyes részei, amelyeket meghatározott szavakkal helyettesítenek, és a nem terminálisok nagyobb szintaktikai csoportok, amelyek szükségszerűen feloszlanak oszthatatlan egységekké.

Probabilisztikus kontextus-mentes nyelvtan

Gondold meg, hogy a GGP-1 képes-e mondatot készíteni Utálom a bosszantó szomszédokat. Talán még két módon is.Ennek a mondatnak két különböző szintaktikai szerkezete tulajdonítható: "Gyűlölöm a szomszédokkal való zavarást" és "Utálom a szomszédokat, amelyek zavarják magukat".

Ábra. 2. A CRG két mondatának lehetséges értelmezése. Ábra az előadásról (PDF, 175 Kb) James Allen

Felmerül a kérdés: meg lehet-e határozni, hogy ezek közül mely struktúrák valószínűbbek? A szokásos KSG keretében – nem. Erre azért jöttek létre probabilista (sztochasztikus, probabilista) kontextus-mentes nyelvtanok (VKSG).

A legegyszerűbb VKSG-ben minden szabály megegyezik azzal a valószínűséggel, amellyel megvalósítható (minden szabály végrehajtása önálló eseménynek számít).

Nyilvánvaló például, hogy az 1. szabályban az 1. szabályt az 1. valószínűséggel hajtják végre (S mindig az NP VP-hez érkezik). De annak érdekében, hogy a 7. és a 8. szabály valószínűségét hozzárendeljük, tudnunk kell, hogy mi gyakran lép be az igecsoportba – az ige és az igecsoport vagy az ige és a főnév csoportba. A legbiztosabb módja annak, hogy megtudja, hogy nagy mondatokat készítsen, amelyek ebben a nyelvtanban generálhatók, minden egyes mondat esetében szintaktikai szerkezetet építsenek fel, kiszámolják az egyes átmenetek gyakoriságát, és valószínűsíthetők.Végezzünk el egy hasonló számítást a három mondatunk mini-csomagjáról (a második mondatot két homonimra fogjuk tekinteni). A VP → V NP átmenet háromszor fordul elő, és a VP → V VP átmenet egyszer fordul elő. A szabályok végrehajtásának teljes valószínűsége 7 0,75, a szabályok 8 pedig 0,25.

Az olvasó maga kiszámíthatja a többi szabály valószínűségét, és meghatározhatja, hogy a második mondat melyik struktúrája nagyobb valószínűséggel (mivel a szabályok megvalósítását független eseményekként tekintjük, lehetséges, hogy a szabályok valószínűségének megszorzásával megkeressük a struktúra létrehozásának valószínűségét). Nem korlátozható az elvont szabályok valószínûségeire, de figyelembe kell venni a lexikai töltés szabályainak valószínûségét, például: V → utálat, V → idõsítõ, ADJ → zavaró stb.

A nyelvek elemzéséhez sokkal kifinomultabb CGC-k és HKSA-k használatosak. Például a KSG-1-ben a téma és a predikátum összeegyeztetésének szükségessége semmilyen módon nem tükröződik, tehát egyfajta mondat Vettem egy almát ő is elismeri a jogot.

Ez volt a VKSG, amely az alapja annak a formalizmusnak, amelyet Bannard a munkájában használt.

Bannard modellje

A kutatók betartják azt a hipotézist, hogy a gyermekek először elsajátítják a konkrét szavakhoz kötődő, nagyon specifikus konstrukciókat.Fokozatosan (két év elteltével) ezek a szerkezetek absztraktabbá válnak. Ezt a megközelítést nevezik használati alapúnak, amely lefordítható felhasználó orientáltés ebben az esetben a lexikálisról orientált. Ezen a megközelítésen belül a konkrét szavak, a stabil kifejezések, valamint az absztraktabb konstrukciók jelennek.

A modellben Bannard különbséget tesz két karaktertípus között. Az első az konkrét jelek: szó (ital) állítások (én akarsz egy ital) vagy a nyilatkozatok részei (akarsz egy ital). Második – rendszer – különleges jelekből áll és résidők – üres helyek, ahol más karaktereket lehet beilleszteni (mindkét típusból). A program mindig tartalmaz konkrét szavakat.

Hasonló jelek csoportokba sorolhatók, nagyjából megfelelnek az alapvető szemantikának kategória. Az ívás során minden egyes csomóponthoz egy bizonyos kategória tartozik, és csak a kategória jelei tölthetik ki.

Ábrán. A 3. ábra azt mutatja be, hogyan, két kategória kiemelésével generálhatja és elemezheti a kifejezést A férfi akarja csokoládé keksz (jobbra) és anélkül (balra).

Ábra. 3. Lehetséges kifejezéselemzés a férfi egy csokis kekszet akar. A – csak meghatározott karakterek használatával, B – sémák használatával. Ábra a tárgyalt cikkbőlPNAS

Csak az objektumot hívó jelek (névleges csoportok, főnevek, névmások stb.) A REF kategóriába ("referent" -ként) jelennek meg, a folyamatok vagy cselekvések (igék, igék csoportok) jelzései a PROCESS kategóriába tartoznak. Az UTTERANCE kategória ("kimutatás") technikai célokra kerül bevezetésre és minden generáció kezdeti szimbóluma.

A következő megközelítő analógiák a Bannard és a GGP-1 grammatikája között lehetnek. rendszerek olyanok, mint nem terminális karakterek: biztosan kiegészítik valami mást. fogalom kategória de nem nyilvánvalóan képviselteti magát a GC-1-ben, de nyilvánvaló, hogy az NP, N és a PRO a REF kategóriába, a V és VP pedig a PROCESS kategóriába tartozik. Különleges jelek olyanok, mint terminális szimbólumokatDe a lényeges különbség az, hogy a Bannard konkrét karaktereket tartalmaz konkrét lexikai anyagként, és a CGS-1-ben ezek absztrakt karakterek is. A szintaktikai struktúra létrehozása után csak a végső szakaszban helyettesítik őket konkrét szavakkal.

Ez a fő különbség az ilyen formalizmus és a szokásos CRG között: Bannard a szabályok jobb oldalán mindig vannak konkrét szavak (azonban a szám alapján ítélve,a szerzõk e kijelentése nem vonatkozik az elsõ csomópont létrehozására az UTTERANCE szolgáltatási kategóriából). Ez lehetőséget ad a szerzők számára, hogy nevezzék meg szabályaikat. lexikális-specifikus, ellenezik őket az elvont szabályok és végül a legfontosabb következtetések.

Modellmunka

A Bannard nyelvtana a következőképpen épül fel. A corpus fő részének minden egyes állításánál minden olyan állítást kipróbálnak, amelyek legalább egy szóval rendelkeznek, mint az adott. Minden megállapítás megtalálható igazodik (lásd a 4. ábrát), amely után minden lehetséges sémát és specifikus jelet kivonnak. Ebben az esetben a rendszer kibontásra kerül X egy X egy és konkrét jelek múmia és ezt. Az igazítás és az extrakció folyamata megismétlődik egy adott kijelentés valamennyi aljzatához, amelyek több mint egy szóból állnak (ebben az esetben Anyu van, Ez a múmia, ezt, van ez és ez) – és így tovább.

Ábra. 4. A közös szavakat tartalmazó állítások összehangolása után a jelek kivonásra kerülnek. Ebben az esetben a rendszer X egy X egy és konkrét szavakat múmia és ezt. Ábra a tárgyalt cikkbőlPNAS

Miután megkapta az összes lehetséges jelet, meg kell találni a lexikális-specifikus HKSG-t, amely ezeken a jeleken alapulva létrehozza a corpus összes állítását.Ez automatikusan történik, a Bayes-féle szabályozatlan nyelvtani eredményt használva (lásd cikkek: M. Johnson és munkatársai, 2007. PCFG-k Markov Lánc Monte Carlo segítségével, PDF, 106 Kb; J. Finkel és munkatársai, 2007. The Infinite Tree , PDF, 280 Kb, P. Liang és munkatársai, 2007. A Hierarchikus Dirichlet folyamatokat használó Infinite PCFG, PDF, 262 Kb).

Sem a kategóriák, sem a generációs szabályok nincsenek előre beállítva, maga a program magában foglalja az optimális nyelvtan kiválasztását (pontosabban nem egy helyes, hanem a legmegfelelőbb nyelvtanok tartományát). Az egyetlen dolog, amit beállítunk, előnyben részesítendő a gazdaságos nyelvtanokhoz: az egyik, amelyben kevesebb kategóriák és jelek vannak. Ennek eredményeképpen az így nyert nyelvtan teljesen modellezi a corpus összes állításának generálását.

Az absztrakt nyelvtan ugyanúgy készült: a program automatikusan osztja a szavakat kategóriákba és megjeleníti a generációs szabályokat (X → Y). A kategóriák és szabályok számát szintén nem határozzák előre.

Így a kutatók végül négy elméleti és négy lexiko-specifikus grammat (Brian-2, Anni-2, Brian-3, Anni-3), valamint négy testületet kaptak, amelyekre tesztelték őket.

1. kísérlet: az elemzés teljessége és a meglepetés mértéke

teljesség

A Brian-2 (a kétéves korban Brian-állítások korpuszához) nyert lexikon-specifikus grammatikája 802 karakterből és három kategóriából állt: Anni-2 – 1898 karakterből és négy kategóriából, Brian-3 – 5343 karakterből és hat kategóriából,Anni-3 – 5385 karakterből és hat kategóriából. A különbség nem meglepő: két év alatt Annie sokkal jobban beszélt, mint Brian. A MacArthur Survey (MacArthur-Bates Kommunikációs Fejlesztési Készletek) szerint a nyelvfejlesztés 75% -át élte, míg Brian 25% -ot.

Nyilvánvaló, hogy az életkorral a nyelvtanok kevésbé egyediek, és a különbségek kiegyensúlyozottak.

A kutatók megvizsgálták, hogy ezek a nyelvtanok milyen mértékben képesek elemezni a megfelelő vizsgálati eseteket. A fő mutató a teljesség volt, vagyis a sikeresen elemzett állítások aránya.

Vegye figyelembe, mi a teljesség, például a KSG-1. Néhány javaslat, amelyet előállíthat (pl. Vettem egy almát), egyesek nem (például, A sorok között olvasok). Így a test két mondatot Vettem egy almát és Utálom a bosszantó szomszédokat A KSG-1 100% teljességgel képes elemezni, és két mondat testét Vettem egy almát és A sorok között olvasok – 50% teljességgel.

Az eredményeket az 1. ábrán mutatjuk be. 5.

Ábra. 5. A vizsgálati esetek elemzésének teljessége. az ordináta a teljességet elhalasztják (a sikeresen elemzett állítások aránya). A kovácsolás jelzi az előírt betétek számát (alulról felfelé, nulláról nyolcra). fekete megmutatja azoknak az állításoknak a hányadát, amelyekkel a nyelvtan nem tudott megbirkózni. Ábra a tárgyalt cikkbőlPNAS

Az ordinát tengely befejeződött. Mind a négy esetben meglehetősen magas: 84%, 75%, 70% és 81%.

Az ábra egy másik érdekes paramétert mutat be – a műveletek számát helyezzeszükséges a kimutatások helyes elemzéséhez. A beillesztés egy jel (egy adott vagy egy sémának) egy sémába való felváltása (lásd a fenti Bannard modell leírását), azaz egyszerűen töltse ki a sávban lévő nyílást. Az egyes oszlopok legvégén a mondatok arányát jelzik, amelyek elemzéséhez nincs szükség egyetlen beillesztésre (azaz mindegyik kimutatás a grammban egy adott jel formájában). A fentiek azok az arányok, amelyek elemzéséhez egy beillesztés szükséges. Látható, hogy a Brian kétéves korában bekövetkezett állításainak 58% -át legfeljebb egy betét segítségével lehet elemezni (más szavakkal, nagyon grammatikai szempontból primitívek). Két beillesztés elegendő a nyilatkozatok 80% -áért, és csak egy utasításhoz négy betét szükséges. Két év alatt Annie grammatikája kevésbé primitív: csak egy betét segítségével csak 32% lehet elemezni, de 61% -kal két betét van elegendő.

Három év alatt a nyelvtan sokkal nehezebbé válik.Briannek nincs több mint egy betéte a nyilatkozatok 26% -ára, és 10% -uk legalább négy betétet igényel. Annie 13% -os és 36% -os részesedéssel rendelkezik (vagyis még mindig Brian előtt áll a beszédben). A szerzők a gyermekek nyelvi tevékenységének jellemzőit nevezik meg, amelyeket ilyen módon értékelhetünk termelékenység és azt a következtetést vonja le, hogy három év alatt jelentősen nő.

Csoda csodája

A kutatók azt is ellenőrizték, hogy az eredményül kapott modellek mennyire jósolják a teszt adatokat A mutatókat választották perpleksivnost (zavar) – az események (szavak és mondatok) valószínűségi eloszlásának mértéke egybeesik az események valós adatokban való eloszlásával, más szóval, hogy mennyire meglepett a modell valódi adatokkal. Minél alacsonyabb a perplexitás, annál nagyobb a valószínűsége annak, hogy egy adott korpusz szövege egy adott nyelvtanban, és ennek megfelelően minél megfelelőbb a modell.

A perplexivitás kiszámítható, de hogyan lehet megbecsülni a kapott értékeket? Összehasonlításképpen, a kutatók használják teljesen elvont A Vksg ugyanazon adatokon jelenik meg. Ezek a nyelvtanok hasonlóak a mi KSG-1-hez: a szavak csak a szótárban vannak, és nem jelennek meg a generációs szabályokban. Ábrán. 6, láthatjuk, hogy a lexikális-specifikus HKSL-ben a perplexitás alacsonyabb.

Ábra. 6. A lexiko-specifikus probabilista kontextus-mentes grammatikák (UB-PCFG, használati alapú probabilista kontextus-mentes nyelvtan) összetéveszthetőségét, amely automatikusan beszerezhető a gyermekek beszédének négy korpuszához fehér színű. A teljesen absztrakt valószínűségi kontextus-mentes nyelvtanok (HKSL) zavartsága, amelyet automatikusan ezek a kagylók is származnak, – kikeltés. fekete az absztrakt VKSG-re vonatkozó perplexitást mutatják be, korrekciókkal, hogy azok a mondatok halmazai, amelyekkel megbirkózzanak, és amelyekhez a lexiko-specifikus nyelvtanok eltérőek (ezért a közvetlen összehasonlítás nem elég jelentős). Ábra a tárgyalt cikkből PNAS

2. kísérlet: Cross-Predictability

Ami az ebből eredő nyelvtant illeti a gyermek vagy az adott kor jellemzőihez? A kérdés megválaszolásához a kutatók mind a négy vizsgált eset mindegyikét alkalmazták mind a négy grammon. Az eredményeket (teljesség és perplexitás) a 2. táblázat tartalmazza:

Brian-2 nyelvtanAnni-2 nyelvtanBrian-3 nyelvtanAnni-3 nyelvtan
Corps Brian-284% (105,4)36% (636,3)46% (1076)34% (1486,2)
Anni-2 Corps15% (381,9)75% (184,1)71% (317,6)81% (425,9)
Corps Brian-38% (455,7)42% (361,5)70% (364,6)63% (363,7)
Anni-3 Corps3% (489,5)29% (526,4)59% (575,8)81% (276,5)

2. táblázat. A teljesség és a perplexitás, amikor különböző nyelvtanokat alkalmaznak különböző vizsgálati esetekre (a tárgyalt cikkről a PNAS)

Úgy tűnik, hogy a kétéves korban nyert grammat nem tudnak jól megbirkózni a hároméves korú esetekről. Brian esetében ez különösen erős (nyilvánvalóan az életének harmadik évében tapasztalt viszonylagos fejlődés nagyobb volt, mint Annieé). De sokkal érdekesebb, hogy a három éven belül nyert nyelvtanok nem tudnak jól megbirkózni a két év alatt. Igaz, hogy az Anni-3 nyelvtanának teljessége az Anni-2 korpuszához képest nagyobb, mint az Anni-2 grammatikája, viszont a perplexitás sokkal magasabb. A Brian-3 gramm a Brian-2 testével sokkal rosszabb, mint a Brian-2 grammatikája, mindkét paraméterben. Ez kiküszöböli azt a félelmet, hogy a nyelvtan túlságosan "puha", vagyis túl sok kijelentést tesz lehetővé.

Ami a gyerekek közötti különbségeket illeti, nyilvánvaló, hogy Brian nyelvtana sokkal rosszabb Annie adatainál, mint Annie nyelvtana, és Annie grammatikája rosszabb Brian adataira, mint Brian nyelvtanára. Jelentős azonban, hogy három év alatt a különbség kevesebb, mint kettő. Ez megerősíti a lexikaiorientált megközelítés tézisét: kezdetben a nyelvtanok nagyon egyediek, fokozatosan egyre inkább hasonlóak a hagyományosakéhoz.

3. kísérlet: Kategóriák hozzáadása

A szókincsorientált megközelítés azt feltételezi, hogy a gyerekek fokozatosan elsajátítják az elvont kategóriákat. Korábbi munkáiban Tomazello azzal érvelt, hogy 23 hónapon belül a gyerekek már rendelkeztek a fõkategóriával, és 25 évig még nem rendelkeztek az ige kategóriában.

A kutatók megvizsgálják, hogy mi történik, ha az automatikus nyelvtant egy kicsit "lenyomják", azáltal, hogy a nyelvhez hozzárendel néhány grammatikai kategóriát. Először a közös név (N) és a főnév (PropN) kategóriáit adták hozzá, vagyis "címkézett" főneveket; akkor hozzáadta az (V) verbategóriát. Ehhez az esetek kézi jelölését használták, ahol mindegyik szót a beszéd része volt.

Az eredményeket az 1. ábrán mutatjuk be. 7.

Ábra. 7. Az elemzés teljessége (visszahívás), az adott kategóriától függően (felső Brian számára, Annie alja; világos oszlopok – két év alatt, a sötétben – háromban). Bal oszloppár: nincs meghatározott kategória középső pár: a közös név és a megfelelő név kategóriái vannak beállítva, jobb pár: A közös név, a név és az ige kategóriái meg vannak adva. Ábra a tárgyalt cikkbőlPNAS

Két év alatt mindkét gyermek esetében a névkategóriák hozzáadása jelentősen növeli a teljességet: Brian 6%, Annie 13%. Az ige kategóriának hozzáadása csak kicsit növeli a teljességet: további 2% a Brian számára (és a teljesség az előző eredmény esetleges hibájába tartozik, amikor csak a névkategóriákat adják meg); további 3% Annie-nek (itt a teljesség meghaladja a lehetséges hibák határait).

Három év alatt Brianben a névkategóriák hozzáadása 14% -kal javítja a teljességet, és az igét még 7% -kal. Annie számára az eredmények nem változnak: ismét 13% és további 3%.

Ezek az eredmények általában összhangban vannak a szerzők feltételezéseivel: két év alatt a gyermekeknek már van némi általános elképzelésük a névkategóriákról, és három év alatt az ige kategóriáiról. Az a tény, hogy Annie hároméves verb kategória hozzáadásával szinte semmilyen hatás nem volt jól illeszkedve. A szerzők azt sugallják, hogy két év alatt mindhárom kategóriát elsajátította, és a három nagy változás nem történt meg.

Mindenesetre a kutatók megjegyzik, hogy a kategóriák fejlődése nagyon fokozatosan megy végbe, ezért az ige nevének és kategóriájának összes kategóriájának egyszerre történő felvétele és bevezetése meglehetősen durva módszer.Ez lehetővé teszi, hogy bizalommal csak egy dolgot mondjon: két év alatt a gyermeknevek kategóriái már nem teljesen kötődnek bizonyos szavakhoz. Három év alatt ugyanez mondható el az ige kategóriájáról.

következtetés

A szerzők megerősíthették hipotézisüket: a lexikai-specifikus nyelvtanok jobban működnek, mint az absztraktok. És talán nemcsak jobban működnek, hanem jobban tükrözik a kognitív valóságot. Ezen túlmenően ezek a nyelvtanok lehetővé teszik számunkra, hogy leírjuk, hogyan fejlődik a gyermek nyelvi kompetenciája, és összetettebbé válik (nagyon sok az élet harmadik évében).

A tanulmány más lexikaiorientált téziseket is megerősített. Először is, az életkorban a nyelvtan egyre kevésbé egyedi és felcserélhetőbbé válik. Másodszor, a nyelvtani kategóriák fejlődése fokozatosan történik (a főnév – korábban, az ige – később).

Intuitíve, ezek a következtetések meglehetősen elfogadhatónak tűnnek. A túlságosan elvont modellek elutasítása valóban lehetővé teszi számunkra, hogy jobban leírjuk a gyermekek beszédét.

Kár, hogy a lexikális-specifikus nyelvtanokat csak a perplexitással, nem pedig a teljességgel, hanem a nyelvtanban, a név és az ige kategóriáival hasonlítják össze, csak teljességgel, de nem hanyagsággal.Ezenkívül az ilyen vizsgálatokra standard kérdés merül fel: lehet-e globális következtetést levonni az egyetlen nyelv (angol) és az egyfajta nyelvtan (HKSD) esetében?

A szerzők felsorolják az esetleges lehetséges korlátozásaikat. Először is csak egy kis mintát (kb. 5%) tekintettek az összes olyan állításnak, amelyet a gyerekek az év során generáltak. Másodszor, csak nyilatkozatok készítését tanulmányozták – van egy véleménye, hogy a gyerekek valójában jobban ismerik a nyelvtant, mint termelékenységüket, csak a kijelentések egy része nem hozhat létre.

Ezért Bannard, Liven és Tomazello a következõképpen fogalmaznak meg végsõ következtetésüket: képesek voltak kimutatni, hogy a nyelvi nyelv elsajátításával foglalkozó gyermekek beszédének lexikai-specifikus megközelítése megfelel a standard értékelési kritériumoknak.

Forrás: Colin Bannard, Elena Lieven, Michael Tomasello. A gyermekek korai nyelvtani ismereteinek modellezése // Az Országos Tudományos Akadémia munkái. 2009. október 13. V. 106. Nem. 41. P. 17284-17289.

Alexander Berdichevsky


Like this post? Please share to your friends:
Vélemény, hozzászólás?

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: