Fòmasyon, Kolèj ak inivèsite
Ki sa ki se Corpus lengwistik?
Jis yon deseni kèk de sa otomatize rechèch la lengwistik, syantis yo te kapab sèlman nan rèv. te travay la fin fèt a la men, li atire yon gwo kantite elèv yo, gen yon gwo chans "neglijans" erè, ak pi enpòtan - tout bagay sa a te pran yon long, tan long.
Avèk te devlopman nan teknoloji konpitè vin posib yo ka fè rechèch sou lòd la nan grandè pi vit, ak jodi a youn nan direksyon ki pi prometteur nan etid la nan lang se yon lengwistik corpus. karakteristik prensipal li se itilize nan gwo kantite enfòmasyon tèks, enfòmasyon nan yon baz done sèl, nan yon fason espesyal, li rele kò a make.
Pou dat, gen anpil bilding kreye ak rezon diferan sou baz la nan materyèl divès kalite lengwistik spanning soti nan dè milyon dè dizèn de dè milya de inite pale kounyè. se direksyon sa rekonèt kòm yon pwomèt epi demontre pwogrè siyifikatif nan direksyon pou aplikasyon ak rechèch rezon yo. Ekspè yo, yon fason oswa yon lòt fè fas ak lang natirèl, li rekòmande a jwenn konnen ak kò a nan tèks omwen nan yon nivo de baz yo.
Istwa nan corpus lengwistik
fòmasyon an nan tandans sa a se akòz kreyasyon an nan peyi Etazini nan Brown kò byen bonè nan mwa 60 iz la-nan dènye syèk lan. Koleksyon an gen ladan tèks yo nan tout 1 milyon dola nan fòm mo, ak jodi a kò a nan gwosè sa a ta dwe totalman konpetitiv. Sa a se lajman akòz mach la nan devlopman nan teknoloji konpitè, osi byen ke demand yo ap grandi pou resous rechèch nouvo.
Nan 90s yo lengwistik corpus parèt nan yon disiplin plen ak endepandan, gen yon koleksyon nan tèks te trase leve, li make pou plizyè douzèn lang. Nan peryòd sa a li te kreye, pou egzanp, Britanik Nasyonal Corpus 100 milyon dola marqueur yo.
Ak devlòpman sou zòn sa a nan lengwistik, komèsan tèks yo ap vin pi plis ak plis (e rive jwenn dè milya de diksyonè inite yo), ak Layout la se vin pi plis divès. Pou dat, ka espas ki la Entènèt ka jwenn vyann bèt ekri ak pale lang, pale plizyè lang, ak aprantisaj-oryante literati atistik oswa akademik, osi byen ke anpil lòt espès yo.
Ki sa ki lojman an
kalite kò nou nan lengwistik yo nan kò Yo ka bay pou plizyè rezon. Entwitif, baz la pou klasifikasyon a kapab yon lang tèks (Ris, Alman), mòd la aksè (sous louvri, fèmen, komèsyal), genre a nan materyèl la sous (fiksyon, dokimantè, akademik, jounalis).
Enteresan fason jenere materyèl nan pale lang. Depi anrejistreman an ekspre nan diskou sa yo yo kreye yon anviwonman atifisyèl pou moun ki repond yo, ak materyèl la ki kapab lakòz pa t 'kapab dwe rele "espontane", modèn lengwistik corpus te ale nan lòt fason. Yon volontè ekipe ak yon mikwofòn, ak pandan jounen an pwodwi yon dosye sou tout konvèsasyon, nan ki li patisipe. Moun alantou li, nan kou, yo ka pa konnen ke nan kou a nan konvèsasyon chak jou kontribye nan devlopman nan syans.
Apre sa resevwa dosye ki estoke nan baz done a, epi yo te akonpaye pa enprime kalite tèks transkripsyon. Se konsa, li vin posib markeup bezwen yo kreye yon oral chak jou lojman lapawòl.
aplikasyon
Kèlkeswa lè sa posib sèvi ak nan lang, e petèt itilize nan bilding tèks. Metòd pou aplike pou kòk la nan lengwistik pouvwa gen:
- Kreye yon pwogram detèmine kle a, se lajman ki itilize nan politik ak biznis nan kenbe tras nan repons pozitif ak negatif nan votè yo ak kliyan, respektivman.
- sistèm enfòmasyon koneksyon sou diksyonè ak tradiktè yo amelyore pèfòmans yo.
- Yon varyete de travay rechèch ki pou kontribiye pou konpreyansyon a nan apatman an lang, istwa a nan devlopman li yo epi prediksyon nan chanjman ki fèt nan fiti prè.
- Devlopman nan sistèm Rekipere enfòmasyon ki baze sou mòfoloji, Massachusetts Institute of Technology, semantik ak lòt karakteristik yo.
- Optimizasyon nan sistèm yo diferan lengwistik ak lòt moun.
Sèvi ak nan bilding
koòdone resous ki sanblab ak yon motè rechèch tipik, ak envit itilizatè a antre nan yon mo oubyen yon konbinezon de mo pou fè rechèch pou baz la enfòmasyon. Apa fòme rechèch la egzak ka itilize vèsyon an ranfòse, ki pèmèt yo jwenn textuelle enfòmasyon sou pwatikman nenpòt kritè lengwistik.
baz rechèch pouvwa gen:
- rapòte nan yon gwoup patikilye nan pati nan diskou;
- karakteristik gramatikal;
- Semantics;
- stylistic ak emosyonèl koloran.
Ou kapab tou konbine kritè rechèch pou yon sekans nan mo, pou egzanp, pou jwenn tout evènman nan vèb la nan prezan ajite anpil, premye moun ki sengilye, ki vini apre prepozisyon an "nan" ak non an nan ka a akuzatif. Solisyon a Travay la tankou yon senp pran itilizatè a yon kèk segond epi li mande sèlman yon klik sourit kèk moun nan jaden yo espesifye.
Pwosesis la nan kreye pi
kapab fè rechèch nan tèt li dwe te pote soti sou tout subcorpus ak yon espesyalman chwazi, tou depann de bezwen yo nan reyalizasyon yon objektif patikilye:
- Premye etap la se yo defini ki tèks fòme baz la pou ka-a. Pou rezon pratik, li se souvan itilize jounalis, istwa nouvèl, kòmantè entènèt. Pwojè a rechèch se itilize nan yon gran varyete kalite pake, men yo ta dwe tèks la dwe chwazi dapre kèk tè komen.
- koleksyon an ki kapab lakòz nan tèks sibi PRETREATMENT, gen koreksyon nan erè, si genyen, prepare pa deskripsyon bibliyografik ak siplemantè-lengwistik nan tèks la.
- Pou elimine tout enfòmasyon ki pa textuelle: Efase grafik, foto, ròch yo.
- Se yon alokasyon de marqueur, ki yo, se tipikman lapawòl, pou plis tretman.
- Finalman, li te pote mòfoloji, sentaks ak lòt mak jwenn plusieurs nan eleman.
Rezilta a nan tout tranzaksyon fèt pa yon estrikti Massachusetts Institute of Technology ak distribye ladan l 'yon plusieurs nan eleman, chak nan yo ki li idantifye l yon pati nan lapawòl, gramatikal, epi, nan kèk ka, atribi ki semantik.
Difikilte nan kreye pi bilding
Li enpòtan ke ou konprann ke se pa ase yo mete tèt yo ansanm yon seri mo oswa fraz pou kò an. Sou yon bò, yon koleksyon nan tèks yo ta dwe balanse, se sa ki, reprezante diferan kalite tèks nan pwopòsyon sèten. Sou lòt la - sa ki nan patiraj la yo ta dwe espace nan yon fason espesyal.
Se pwoblèm nan premye rezoud pa yon akò: pou egzanp, ki nan koleksyon an gen ladan 60% nan tèks literè, 20% nan dokimantè, se yon sèten pousantaj bay yon reprezantasyon ekri sou lang yo pale, lejislasyon, travay syantifik, elatriye jodi a pafè resèt balanse kò pa egziste ...
Kesyon an dezyèm, konsènan Layout a kontni, rezoud defi. Gen pwogram espesyal ak algoritm itilize pou otomatik regilye nèf semenn klas nan tèks, men yo pa bay yon rezilta pafè, li ka lakòz deranjman epi mande pou rivork manyèl. Opòtinite ak defi nan fè fas ak pwoblèm sa a yo ki dekri an detay nan yon papye V. P. Zaharova nan lengwistik corpus.
se markeup Tèks aplike nan plizyè nivo, nou lis pi ba a.
mòfoloji balisage
Nan lekòl la, nou sonje ke nan lang nan Larisi, gen diferan pati nan lapawòl, ak chak nan yo gen karakteristik pwòp li yo. Pou egzanp, vèb la gen kategori nan enklinasyon ak tan an nan ki pa gen okenn non. yon oratè natif natal san ezitasyon refize nouen ak vèb konjige, men yo ki make kò a nan 100 milyon dola. marqueur travay manyèl pa pral travay. Tout operasyon ki nesesè yo ka egzekite òdinatè a, sepandan, pou sa a li bezwen yo dwe anseye yo.
Mòfoloji balisage, òdinatè a dwe "konprann" chak mo kòm yon pati sèten nan diskou li te gen sèten karakteristik gramatikal. Depi Ris la (ak nenpòt lòt lang) opere yon nimewo nan règ regilye, li se posib yo bati yon pwosedi otomatik pou analiz la mòfoloji, envesti nan machin nan pou yon nimewo nan algoritm. Men tou, gen eksepsyon nan règ la, osi byen ke faktè divès kalite konplike. Kòm yon rezilta, privye analiz òdinatè nan jounen jodi a se byen lwen soti nan ideyal, e menm 4% erè vin bay yon valè de 4, mln. Mo sou kò a nan 100 milyon dola. Inite, ki egzije rivork manyèl.
liv detaye dekri pwoblèm lan Zaharova V. P. "Corpus lengwistik".
Massachusetts Institute of Technology komantèr
Analyse oswa analyse - yon pwosedi ki detèmine relasyon ki genyen ant mo nan yon fraz. Lè l sèvi avèk yon seri algoritm se posib yo detèmine tèks la nan sijè, suppose, testaman, vire miltip nan lapawòl. Chache konnen ki mo yo sekans prensipal la, epi ki - depann, nou ka efektivman ekstrè enfòmasyon ki soti nan tèks ak yo anseye machin nan bay desizyon an repons a yon demann rechèch sèlman enfòmasyon ki enteresan nou.
By wout la, motè rechèch modèn sèvi ak sa a bay soti nimewo espesifik olye pou yo tèks long nan repons a demann ki enpòtan tankou "konbyen kalori nan yon pòm" oswa "distans la soti nan Moskou nan Saint Petersburg." Sepandan, yo konprann menm Basics yo nan pwosesis la dekri nan bezwen nan konsilte "Yon ti rale nan Corpus lengwistik nan" oswa lòt leson patikilye de baz yo.
semantik markeup
Semantics yo nan pawòl Bondye a - se, an tèm senp, siyifikasyon nan. apwòch lajman aplikab a analiz la semantik nan yon Tags mo Wikimedia, reflete l 'sa ki nan yon seri kategori semantik ak subkategori. enfòmasyon sa yo se enpòtan pou optimize algoritm analize tèks ton an, rekapitulasyon otomatik ak lòt travay metòd pou lengwistik corpus.
Genyen yon kantite nan "rasin" nan pye bwa a, sa ki reprezante yon mo abstrè ak yon Semantics trè lajè. Kòm yo se yon branch nan nœuds yo pyebwa fòme, ki gen pi plis ak plis espesifik eleman pale kounyè. Pou egzanp, yo ka pawòl Bondye a "bèt" dwe asosye ak konsèp tankou "moun" ak "bèt". Pawòl Bondye a premye pral kontinye branch soti nan pwofesyon diferan, tèm aparante, nasyonalite, ak dezyèm lan - sou klas ak kalite bèt yo.
Itilize nan sistèm Rekipere enfòmasyon
Zòn nan pou sèvi ak lengwistik corpus kouvri jaden yo divès aktivite. Enceintes yo te itilize pou preparasyon an ak koreksyon nan diksyonè, kreye sistèm tradiksyon otomatik ki fonksyone, anotasyon, retwouve reyalite, pou detèmine si ton an ak lòt pwosesis tèks.
Anplis de sa, resous sa yo, se aktivman itilize nan etid la nan lang mond ak fòmil de fonksyone nan lang an jeneral. Aksè nan komèsan laj de enfòmasyon pre-prepare fasilite rapid ak complète etid sou tandans yo nan lang devlopman, ak chanjman ki estab fòmasyon neolojism vitès diskou valè inite pale kounyè ak lòt moun.
Depi travay la ak kantite lajan sa yo gwo nan done mande pou automatisation, jodi a gen fèmen entèraksyon ant òdinatè ak corpus lengwistik yo.
Ris Nasyonal Corpus
Ka sa a (abreje NKRYA) gen ladan yon nimewo nan subcorpus, sa ki pèmèt yo sèvi ak yon resous pou yon gran varyete travay.
Materyèl yo nan baz done a yo divize NKRYA:
- nan piblikasyon nan 90s medya yo 'ak 2000s, tou de domestik yo ak etranje;
- anrejistreman diskou;
- aktsentologicheski make tèks (dir, mak yo nan estrès);
- dyalèk diskou;
- pwezi;
- Materyèl ak mak Massachusetts Institute of Technology ak lòt.
Sistèm nan enfòmasyon gen ladan tou Subcorpus ak tradiksyon paralèl nan travay soti nan Russian yo nan lang angle, Alman, franse ak anpil lòt lang (ak vis vèrsa).
Epitou nan baz done a gen yon seksyon nan tèks istorik, sa ki reprezante diskou a ekri nan Ris nan diferan peryòd nan devlopman li. Genyen tou se yon kò fòmasyon, ki kapab itil pou sitwayen etranje nan metrize lang nan Larisi.
Ris Nasyonal Corpus konprann 400 milyon inite pale kounyè, ak nan plizyè fason devan yo nan yon pati enpòtan nan lang yo nan Ewòp nan kò nou.
kandida
Reyalite an favè rekonesans an nan tandans sa a se disponiblite a nan pwomèt laboratwa lengwistik corpus nan inivèsite Ris, osi byen ke etranje yo. Ak itilize a nan ak rechèch nan fondasyon an nan enfòmasyon ak rechèch sa a resous explik devlopman nan kèk zòn nan jaden an nan teknoloji segondè, kesyon-reponn sistèm, men li se diskite pi wo a.
se plis devlopman nan corpus lengwistik prevwa nan tout nivo, sòti nan teknik ak an tèm de aplikasyon nan algoritm nouvo ki optimize pwosesis yo nan chèche ak enfòmasyon sou otomatik, abilite òdinatè, plis RAM, ak konsomatè yo, paske itilizatè yo pi plis ak plis fason yo sèvi ak sa a ki kalite resous nan chak jou yo lavi ak travay.
an konklizyon
Nan mitan an nan dènye syèk lan nan 2017 te sanble byen lwen tan kap vini, kote veso vwayaje nan linivè a ak robo fè tout travay la pou pèp la. An reyalite, syans se rampli ak "tach blan" ak fè tantativ dezespere yo reponn kesyon yo nan limanite pou syèk twoublan. Kesyon fonksyone nan lang isit la okipe yon plas nan onè, ak kabinè ak enfòmatik lengwistik ka ede nou reponn yo.
Processing nan ansanm done gwo ka detekte menm modèl yo, deja aksesib, predi devlopman an nan karakteristik ak lang espesifik yo swiv fòmasyon nan mo nan tan prèske reyèl.
Sou yon nivo pratik, kloti mondyal yo ka wè, pou egzanp, kòm yon zouti potansyèl evalye atitid piblik la - Entènèt la se yon toujou ap mete ajou chak jou baz tèks divès kalite kreye pa itilizatè reyèl: sa a kòmantè ak revize, ak atik, ak anpil lòt fòm lapawòl.
Anplis de sa, k ap travay ak kò kontribye nan devlopman nan pyès ki nan konpitè a menm, ki te enplike nan enfòmasyon Rekipere, nou yo abitye ak sèvis la "Google" oswa "yandèks", translation machin, elektwonik diksyonè.
Nou ka konfyans afime ke lengwistik nan corpus fè sèlman etap sa yo an premye, ak nan fiti prè pral fleri.
Similar articles
Trending Now