ԿազմումՔոլեջները եւ համալսարանները

Որն է Corpus Լեզվաբանություն:

Պարզապես մի քանի տասնամյակ առաջ է ավտոմատ լեզվական հետազոտությունը, գիտնականները կարող են միայն երազել: Աշխատանքը կատարվում է ձեռքով, այն գրավում է մեծ թվով ուսանողների, կա մի էական հավանականությունը «անփույթ» սխալները, եւ որ ամենակարեւորն է, - այս ամենը տեւել է մի երկար, երկար ժամանակ:

Հետ զարգացումը համակարգչային տեխնոլոգիաների հնարավոր է դարձել իրականացնել հետազոտություն կարգի ուժգնությամբ ավելի արագ, եւ այսօր մեկն է առավել հեռանկարային ուղղություններից է ուսումնասիրության լեզվի կորպուս լեզվաբանություն: Դրա հիմնական առանձնահատկությունն այն է, որ օգտագործումը մեծ քանակությամբ տեքստային տեղեկատվության, տեղեկատվության մեջ մեկ բազայում, հատուկ ձեւով եւ կոչվում է նշված մարմինը:

Մինչ օրս, կան բազմաթիվ շենքեր, որոնք ստեղծվել են տարբեր նպատակներով հիման վրա տարբեր լեզվական նյութի spanning միլիոնավոր տասնյակ միլիարդավոր բառային միավորների: Այս ուղղությունը ճանաչվում է որպես խոստումնալից եւ ցույց է տալիս, էական առաջընթացը կիրառման եւ գիտահետազոտական նպատակներով: Փորձագետներ, այս կամ այն կերպ վերաբերում են բնական լեզվով, ապա խորհուրդ է տրվում ծանոթանալու նաեւ մարմնի տեքստերի առնվազն բազային մակարդակի.

Պատմությունը corpus լեզվաբանության

Ձեւավորումը այս միտումը պայմանավորված է ստեղծման Միացյալ Նահանգների ժամը Brown մարմնի վաղ 60 - ական թվականներին անցյալ դարում: Ժողովածուն ընդգրկում է տեքստերը բոլոր 1 մլն բառաձեւ, եւ այսօր մարմինը այս չափի կլինի բոլորովին անմրցունակ: Դա հիմնականում պայմանավորված է տեմպերով զարգացման համակարգչային տեխնոլոգիաների, ինչպես նաեւ աճող պահանջները նոր հետազոտական ռեսուրսների.

90-ականներին corpus լեզվաբանություն եկած մեջ լիարժեք եւ անկախ կարգապահության, մի տեքստերի հավաքածու, որոնք կազմվել են եւ նշվում են տասնյակ լեզուներով: Այս ժամանակահատվածում այն ստեղծվել է, օրինակ, Մեծ Բրիտանիայի ազգային կորպուս 100 մլն խորհրդանիշներ.

Զարգացման հետ: Այս ոլորտում լեզվաբանության, տեքստային ծավալները դառնում են ավելի ու ավելի (եւ հասնել միլիարդավոր բառարան միավորների), եւ դասավորությունը դառնում է ավելի բազմազան: Մինչ օրս, որ ինտերնետը տարածք կարելի դիակները գրավոր եւ բանավոր լեզուն, բազմալեզու եւ ուսուցման ուղղվածության գեղարվեստական կամ գիտական գրականություն, ինչպես նաեւ բազմաթիվ այլ տեսակներ:

Որոնք են բնակարանային

Մարմնի տեսակները է մարմնի լեզվաբանության կարող է տրամադրվել մի քանի պատճառներով: Ինտուիտիվ, հիմքը դասակարգման կարող է լինել տեքստային լեզու (ռուսերեն, գերմաներեն), մուտքի ռեժիմ (բաց կոդով, փակ, առեւտրային), ժանրը աղբյուրի նյութական (խաղարկային, վավերագրական, ակադեմիական, լրագրություն).

Հետաքրքիր միջոց առաջացնում նյութերը խոսակցական լեզվով: Քանի որ միտումնավոր ձայնագրությունը նման խոսքի ստեղծել արհեստական միջավայր է հարցվածների, եւ արդյունքում նյութական չի կարելի որակել որպես «ինքնաբուխ», ժամանակակից corpus լեզվաբանության գնացել է այլ ճանապարհով: Կամավորը հագեցած է խոսափողով, եւ օրվա ընթացքում արտադրվել է ռեկորդային բոլոր խոսակցությունների, որում իր մասնակցությունն: Մարդ, իհարկե, չի կարող իմանալ, թե որ ընթացքում ամենօրյա զրույցի նպաստում է գիտության զարգացմանը:

Ավելի ուշ ստացել ռեկորդ պահվում է տվյալների բազայում, եւ ուղեկցվում են տպագրված տեքստը Transcript տեսակի. Այսպիսով, հնարավոր է դառնում նշարկման համար անհրաժեշտ է ստեղծել բանավոր ամենօրյա խոսքի բնակարանով:

դիմում

Որտեղ հնարավոր օգտագործումը լեզվի, եւ, թերեւս, օգտագործումը շենքերի տեքստերի. Մեթոդները կիրառել Հալլ լեզվաբանության կարող են լինել:

  • Ստեղծելով ծրագիր որոշիչ է բանալին, որը լայնորեն օգտագործվում է քաղաքականության եւ բիզնեսի չկորցնել դրական եւ բացասական պատասխանների ընտրողների եւ հաճախորդների, համապատասխանաբար.
  • Կապը տեղեկատվական համակարգը բառարաններ թարգմանիչների եւ բարելավել իրենց կատարումը.
  • Մի շարք հետազոտական խնդիրների, որոնք նպաստում են հասկանալու լեզվի միավորի, պատմության իր զարգացման եւ կանխագուշակման փոփոխությունների մոտ ապագայում:
  • Զարգացում տեղեկատվական որոնման համակարգերի հիման վրա մորֆոլոգիական, Սինտակտային, իմաստային եւ այլ հատկանիշների.
  • Օպտիմալացման տարբեր լեզվական համակարգեր եւ այլն:

Օգտագործման շենքերի

նման ռեսուրս ինտերֆեյսի հետ տիպիկ որոնման, եւ հուշում է օգտագործողին մուտքագրեք բառը կամ համադրություն բառերի որոնման համար տեղեկատվական բազայի. Բացի ձեւավորել ճշգրիտ հարցում կարող եք օգտագործել ուժեղացված տարբերակը, որը թույլ է տալիս գտնել տեքստային տեղեկատվություն է գրեթե ցանկացած լեզվական չափանիշների:

որոնում բազան կարող է լինել:

  • որոշակի խմբի մասերի խոսքի.
  • քերականական հատկանիշները;
  • իմաստաբանություն,
  • ոճական եւ զգացմունքային գունավորում.

Դուք նաեւ կարող եք համատեղել որոնման չափանիշներին համար հաջորդականության բառերի, օրինակ, պետք է գտնել բոլոր դեպքերը բայ է սույն լարված, առաջին անձի եզակի, որը գալիս հետո նախդիր »բառը» եւ գոյական է մեղադրական դեպքում. Որ լուծում է նման պարզ խնդիր է ունենում օգտագործողի մի քանի վայրկյան, եւ պահանջում է միայն մի քանի մուկ Սեղմումներ նշված ոլորտներում:

Գործընթացը ստեղծելու

Որոնումն ինքնին կարող է իրականացվել բոլոր ենթակորպուսն ընդգրկում եւ մեկ հատուկ ընտրվել, կախված կարիքների հասնելու որոշակի նպատակին:

  1. Առաջին քայլը պետք է սահմանել, որոնք տեքստերը հիմք գործի. Համար գործնական նպատակներով, այն հաճախ օգտագործվում է լրագրողական, նորություններ ու պատմություններ օնլայն մեկնաբանությունները: Հետազոտության նախագիծը օգտագործումը մի լայն փաթեթի տեսակների, սակայն տեքստը պետք է ընտրել ըստ որոշ ընդհանուր գետնին.
  2. Որ արդյունքում տեքստերի հավաքածու ենթարկված նախնական Բուժում, կա թույլ տրված սխալների ուղղումը, եթե այդպիսիք կան, կողմից պատրաստված մատենագիտական եւ արտատարածաշրջանային լեզվական նկարագրության տեքստի.
  3. Է վերացվի բոլոր ոչ-տեքստային տեղեկատվություն: Մաքրում գրաֆիկայի, նկարներ, աղյուսակներ:
  4. Է տեղաբաշխման խորհրդանիշներ, որոնք, որպես կանոն, ելույթ, հետագա մշակման համար:
  5. Ի վերջո, այն իրականացվում ձեւաբանական, շարահյուսական եւ այլ գծանշում ձեռք բերել բազմակարծությունը տարրերից.

Արդյունք է բոլոր գործարքների կողմից կատարված մի բառացի իմաստի եւ շարահյուսական կառույցի հետ բաշխվում դրանում բազմազանության տարրերից, որոնցից յուրաքանչյուրը բացահայտված մասը խոսքի, քերականական եւ, որոշ դեպքերում, իմաստային ատրիբուտներով:

Դժվարություններ ստեղծելու շենքերը

Դա կարեւոր է հասկանալ, որ բավական չէ, դնում միասին մի շարք բառերի կամ նախադասությունների մարմնի համար: Է, մի կողմից, մի հավաքածու տեքստերի չպետք է լինի հավասարակշռված, այսինքն, ներկայացնում տարբեր տեսակի տեքստերի որոշ համամասնություններով. Մյուս բովանդակությունը պարիսպ պետք է spaced է հատուկ ձեւով.

Առաջին խնդիրը լուծվում է պայմանագրով: Օրինակ, հավաքածուի մեջ ներառում է 60% -ը գրական տեքստեր, 20% -ը, վավերագրական ֆիլմեր, որոշակի տոկոսային տրվում է գրավոր ներկայացուցչությունը խոսակցական լեզվի, օրենսդրության, գիտական աշխատությունների, եւ այլն կատարյալ բաղադրատոմսը հավասարակշռվում մարմինն այսօր գոյություն չունի ...

Երկրորդ հարցը, որը վերաբերում է բովանդակության դասավորությունը, լուծել դժվարին. Կան հատուկ ծրագրեր եւ ալգորիթմներ, որոնք օգտագործվում են ավտոմատ մակնշման տեքստերի, բայց նրանք չեն տալիս կատարյալ արդյունք, կարող է առաջացնել disruptions եւ պահանջում ձեռքով rework. Հնարավորություններ եւ մարտահրավերներ զբաղվում է այդ խնդրով են մանրամասն նկարագրված է մի թղթի Վ Պ. Zaharova հանցակազմի լեզվաբանության.

Տեքստը պիտակավորում իրականացվում է մի քանի մակարդակներով, որը մենք ցուցակում ստորեւ.

ձեւաբանական հատկորոշում

Դպրոցից, մենք հիշում ենք, որ ռուսաց լեզվի, կան տարբեր խոսքի մասեր, եւ նրանցից յուրաքանչյուրն ունի իր առանձնահատկությունները: Օրինակ, բայը ունի կատեգորիաները թեքության եւ ժամանակ, որը ոչ մի noun: ա մայրենի խոսնակ առանց վարանելու անկումները գոյականներ եւ խոնարհել բայերի, սակայն նշելու մարմինը 100 միլիոն: խորհրդանիշներ ձեռքով աշխատանքի չի աշխատելու: Բոլոր անհրաժեշտ գործողությունները կարող են կատարել համակարգիչը, սակայն, քանի որ դա պետք է ուսուցանել:

Ձեւաբանական հատկորոշման, համակարգիչը պետք է «հասկանալ» յուրաքանչյուր խոսքը որպես որոշակի մաս խոսքի ունեցող որոշ քերականական հատկանիշները: Քանի որ ռուսական (եւ ցանկացած այլ լեզու) գործում են մի շարք կանոնավոր կանոնների, դա հնարավոր է կառուցել ավտոմատ կարգը ձեւաբանական վերլուծություն, ներդրումներ են մեքենայի մի շարք ալգորիթմների: Սակայն, կան բացառություններ, ինչպես նաեւ տարբեր բարդ գործոնների. Որպես հետեւանք, զուտ համակարգչային անալիզը Այսօրվա հեռու է, եւ նույնիսկ 4% սխալ զիջում արժեք 4 մլն. Խոսքեր մարմնի 100 մլն. Միավորների պահանջող ձեռքով rework.

Ամսվա գիրքը նկարագրում է խնդիրը Zaharova V. P. "Corpus լեզվաբանություն":

Սինտակտային անոտացիա

Վերլուծել կամ վերլուծելիս - մի ընթացակարգ, որը որոշում է հարաբերությունները բառերի մի նախադասությամբ. Օգտագործելով մի շարք ալգորիթմների հնարավոր է որոշելու տեքստը առարկայի, ստորոգյալի, լրացումներ, բազմաթիվ հերթափոխով խոսքի. Պարզել, թե որն խոսքերն են հիմնական հաջորդականությունը, եւ որը կախված, մենք կարող ենք արդյունավետ կերպով դուրս հանել է տեղեկատվություն տեքստը եւ ուսուցանել մեքենան թողարկել է պատասխան որոնման հարցման միայն այն տեղեկությունները, հետաքրքրություն մեզ.

Ի դեպ, ժամանակակից որոնման օգտագործում այս է տալիս դուրս գալ կոնկրետ թվեր-ի փոխարեն երկար տեքստերը ի պատասխան համապատասխան հարցումների, ինչպիսիք են «թե քանի կալորիա է խնձորի» կամ «հեռավորությունը Մոսկվայից Սանկտ Պետերբուրգ»: Սակայն, պետք է հասկանալ, թե նույնիսկ հիմունքների գործընթացի նկարագրված է պետք է խորհրդակցել է «Ներածութիւն կորպուսի լեզվաբանության» կամ այլ հիմնական ձեռնարկը:

իմաստաբանական պիտակավորում

Իմաստաբանություն բառի - ը, պարզ առումով, իմաստով: Լայնորեն կիրառելի մոտեցում իմաստային վերլուծության մի Բառը հեղինակի նշման թեգերը, որն արտացոլում իր պատկանող մի շարք իմաստային կատեգորիաների եւ ենթակատեգորիան. Նման տեղեկատվությունը համար թանկ է օպտիմալացնել ալգորիթմներ վերլուծել տեքստ տոնը, Ավտոմատիկա ամփոփումը եւ այլ հիմնախնդիրներ մեթոդներ կորպուսային լեզվաբանության.

Կան մի շարք «արմատից» ծառի, որը ներկայացնում է վերացական խոսքը շատ լայն իմաստաբանություն. Որպես մասնաճյուղը ծառի հանգույցների են ձեւավորվում, որը պարունակում է ավելի ու ավելի կոնկրետ բառային տարրեր: Օրինակ, բառը "արարած" կարող է կապված այնպիսի հասկացությունների, ինչպիսիք են «մարդկային» եւ «կենդանու»: Առաջին Բառը կշարունակի մասնաճյուղ է մեջ տարբեր մասնագիտությունների, ազգակցական պայմաններով, ազգության, եւ երկրորդը `դասերի եւ տեսակների կենդանիների.

Օգտագործումը տեղեկատվական որոնման համակարգերի

Ոլորտներն օգտագործման կորպուսային լեզվաբանության ծածկելու տարբեր ոլորտներում գործունեության. Պատյաններ օգտագործվում են նախապատրաստման եւ ուղղման, բառարանագիր ստեղծել Ավտոմատացված Translation համակարգեր, annotating, կանչելիս փաստերը, որոշելիս տոնուսը եւ այլ տեքստային մշակման.

Բացի այդ, նման ռեսուրսներ են ակտիվորեն օգտագործվում են ուսումնասիրության համաշխարհային լեզուների եւ մեխանիզմների գործող լեզու ընդհանրապես. Մատչելիությունը մեծ ծավալների նախընտրական պատրաստված տեղեկատվության հեշտացնում արագ եւ համապարփակ ուսումնասիրություն միտումների զարգացման լեզուներով, եւ կայուն ձեւավորումը հազարավոր նորաբանությունների ելույթը արագության փոփոխությունը գնահատում է բառային միավորներ եւ մյուսներին:

Քանի որ աշխատանքը այնպիսի մեծ քանակությամբ տվյալների պահանջում ավտոմատացում, այսօր կա սերտ փոխգործակցությունը համակարգչային եւ կորպուսային լեզվաբանության:

Ռուսաստանի ազգային Corpus

Այս դեպքը (կրճատ NKRYA) ներառում է մի շարք ենթակորպուսն ընդգրկում, որը թույլ է տալիս օգտագործումը ռեսուրս համար լայն շարք խնդիրների:

Կայքում տեղ գտած նյութերը բազայում բաժանվում են NKRYA:

  • Ինչպես հրապարակումներ ԶԼՄ - ների `90-ական թվականներին եւ 2000, այնպես էլ ներքին եւ արտաքին.
  • ձայնագրման ելույթ;
  • aktsentologicheski նշանավորվեց տեքստերը (այսինքն, նշանները սթրեսի).
  • բարբառ ելույթը.
  • պոեզիա;
  • Նյութեր Սինտակտային եւ այլ գծանշում:

Տեղեկատվական համակարգ ներառում է նաեւ Subcorpus զուգահեռ թարգմանություններից աշխատանքների ռուսերենից անգլերեն, գերմաներեն, ֆրանսերեն եւ այլ լեզուներով (եւ հակառակը):

Նաեւ մասնակի կա մի հատված, պատմական տեքստերի ներկայացնող գրավոր ելույթով ռուսերեն տարբեր ժամանակահատվածներում իր զարգացման. Կա նաեւ մի դասընթաց մարմին, որը կարող է օգտակար լինել օտարերկրյա քաղաքացիների տիրապետել ռուսաց լեզուն:

Ռուսաստանի ազգային Corpus կազմում 400 մլն բառային միավորների, եւ շատ առումներով ընդառաջ մի զգալի մասի լեզուներով Եվրոպայի մարմինների:

հեռանկարները

Փաստը հօգուտ ճանաչման այս միտումը առկայությունը խոստումնալից լաբորատոր CORPUS լեզվաբանության ռուսական բուհերում, ինչպես նաեւ արտասահմանյան: Օգտագործման հետ եւ հետազոտությունների շրջանակներում այս տեղեկատվական եւ որոնողական ռեսուրսների հանգեցնում զարգացումը որոշակի տարածքների ոլորտում բարձր տեխնոլոգիաների, հարց-պատասխանելով համակարգերի, սակայն դա քննարկվել է վերը:

Հետագա զարգացումը հանցակազմի լեզվաբանության Կանխատեսվում է բոլոր մակարդակներում, սկսած տեխնիկական եւ իրականացման առումով նոր ալգորիթմներ, որոնք օպտիմալացնել գործընթացները որոնման եւ մշակման տեղեկատվություն, զորացնող համակարգիչներ, ավելի RAM, եւ սպառողը, քանի որ օգտագործողները կարող են ավելի ու ավելի շատ եղանակներ օգտագործել այս տեսակի ռեսուրսի նրանց ամենօրյա կյանքն ու աշխատանքը:

Եզրափակելով

Ի կեսին անցյալ դարի 2017 թ. Թվում էր հեռավոր ապագայում, որտեղ տիեզերանավեր ճանապարհորդել միջոցով տիեզերքի եւ ռոբոտներ անել ամբողջ աշխատանքը մարդկանց համար. Ի դեպ, գիտության հագեցած «սպիտակ կետերում» եւ հուսահատ փորձեր է պատասխանել հարցերին մարդկության համար դարեր շարունակ խանգարում: Հարցեր գործունեության լեզվի այստեղ գրավում տեղը պատվի, եւ կառավարության, եւ հաշվողական լեզվաբանության կարող է օգնել մեզ պատասխանելու նրանց.

Վերամշակման խոշոր տվյալների խմբերից կարող է բացահայտել օրինաչափություններ, նախկինում անհասանելի, կանխատեսել զարգացումը հատուկ լեզվական առանձնահատկությունները հետեւելու ձեւավորմանը բառերի գրեթե իրական ժամանակում:

Գործնական մակարդակով, գլոբալ խլարարներ կարելի է տեսնել, օրինակ, որպես պոտենցիալ գործիք գնահատելու հանրային տրամադրությունները, որ ինտերնետը մի անընդհատ թարմացվում է օրական կտրվածքով տարբեր տեքստերի ստեղծած իրական օգտվողների: այս մեկնաբանություններն ու ակնարկներ, եւ հոդվածներ, եւ շատ այլ ձեւեր խոսքի.

Բացի այդ, աշխատանքային մարմինների հետ նպաստում է զարգացմանը, նույն ապարատային, որոնք ներգրավված տեղեկատվական որոնման, մենք ծանոթ ենք, որ ծառայությանը «Google» կամ «Յանդեքս», մեքենայական թարգմանություն, էլեկտրոնային բառարաններ:

Մենք կարող ենք վստահորեն պնդել, որ կորպուսը լեզվաբանություն դարձնում միայն առաջին քայլերը, եւ մոտ ապագայում չի ծաղկել.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hy.birmiss.com. Theme powered by WordPress.