DannelseHøyskoler og universiteter

Hva er Corpus Linguistics?

Bare noen få tiår siden for å automatisere språkforskning, kunne forskerne bare kan drømme om. Arbeidet ble gjort for hånd, det tiltrekker seg et stort antall studenter, er det en betydelig sannsynlighet "uforsiktig" feil, og viktigst av alt - alt dette tok lang, lang tid.

Med utviklingen av datateknologi har blitt mulig å forske på størrelsesorden raskere, og i dag en av de mest lovende retninger i studiet av språket er en korpuslingvistikk. Dens viktigste funksjon er bruken av store mengder tekstinformasjon, informasjon i en enkelt database, på en spesiell måte og kalte den merkede kroppen.

Til dags dato er det mange bygninger som er opprettet med ulike formål på grunnlag av ulike språklige materialet spenner fra millioner til titalls milliarder av leksikalske enheter. Denne retningen er anerkjent som en lovende og viser betydelig fremgang mot søknaden og forskningsformål. Eksperter, en eller annen måte arbeider med naturlig språk, anbefales det å bli kjent med kroppen av tekster i hvert fall på et grunnleggende nivå.

History of corpus lingvistikk

Dannelsen av denne utviklingen skyldes etableringen av USA på Brown kroppen i begynnelsen av 60-tallet av forrige århundre. Samlingen inneholder tekster av alle millioner av ordformer, og i dag er kroppen av denne størrelsen ville være helt konkurranseudyktig. Dette skyldes i stor grad tempoet i utviklingen av datateknologi, samt de økende behovene for nye forskningsressurser.

På 90-tallet korpuslingvistikk dukket opp til en full og uavhengig disiplin, har en samling av tekster utarbeidet og merket for dusinvis av språk. I denne perioden ble det opprettet, for eksempel British National Corpus 100 millioner tokens.

Med utviklingen av dette området av lingvistikk, blir tekstmengder blir mer og mer (og nå milliarder av ordbok enheter), og oppsettet blir mer mangfoldig. Til dags dato, kan Internett plassen bli funnet skrotter skriftlig og muntlig språk, flerspråklig, og læringsorientert kunstnerisk eller vitenskapelig litteratur, samt mange andre arter.

Hva er bolig

Organ i kroppen lingvistikk kan gis av flere grunner. Intuitivt kan grunnlaget for klassifiseringen være en tekst språk (russisk, tysk), tilgang modus (åpen kildekode, lukket, kommersielle), sjangeren av kildematerialet (fiksjon, dokumentar, akademisk, journalistikk).

Interessant måte genererer materialer av talespråk. Siden bevisst innspillingen av en slik tale for å skape et kunstig miljø for respondentene, og det resulterende materialet kunne ikke kalles "spontan", har moderne korpuslingvistikk gått den andre veien. En frivillig er utstyrt med en mikrofon, og i løpet av dagen produsert en oversikt over alle samtaler, der det deltar. Folk rundt, selvfølgelig, kan ikke vite at i løpet av dagligdags samtale bidrar til utvikling av vitenskap.

Senere fikk posten lagres i databasen og ledsages av trykt tekst karaktertype. Dermed blir det mulig markup nødvendig for å skape en oral daglig tale huset.

søknad

Der det er mulig bruk av språket, og kanskje bruk av bygninger tekster. Metoder for å anvende skroget i lingvistiske kan være:

  • Opprette et program bestemme nøkkelen, er mye brukt i politikk og næringsliv til å holde oversikt over positive og negative reaksjoner fra velgerne og kunder, henholdsvis.
  • Tilkobling informasjonssystem til ordbøker og oversettere for å forbedre resultatene.
  • En rekke forskningsoppgaver som bidrar til forståelsen av språket enhet, historien om sin utvikling og prediksjon av endringer i nær fremtid.
  • Utvikling av informasjon gjenfinningssystemer basert på morfologiske, syntaktiske, semantiske og andre funksjoner.
  • Optimalisering av ulike språklige systemer og andre.

Bruk av bygninger

lignende ressurs grensesnitt med en typisk søkemotor, og ber brukeren om å skrive inn et ord eller en kombinasjon av ordene du søker etter informasjonsgrunnlaget. Bortsett danne den eksakte spørring kan bruke den forbedrede versjonen, som gjør det mulig å finne tekstlig informasjon på nesten alle språklige kriterier.

søkebasen kan være:

  • medlemskap i en bestemt gruppe av deler av tale;
  • grammatikalske funksjoner;
  • semantikk;
  • stilistiske og emosjonelle farge.

Du kan også kombinere søkekriterier for en sekvens av ord, for eksempel for å finne alle forekomster av verb i presens, første person entall, som kommer etter preposisjonen "i" og substantivet i akkusativ. Løsningen på en slik enkel oppgave tar brukeren et par sekunder, og krever bare noen få museklikk i de angitte feltene.

Prosessen med å lage

Jakten i seg selv kan utføres på alle subcorpus og en spesielt utvalgt, avhengig av behov for å oppnå et bestemt mål:

  1. Det første trinnet er å definere som tekster danner grunnlaget for saken. Av praktiske grunner er det ofte brukt journalistiske, nyheter, online kommentarer. Forskningsprosjektet er bruken av en rekke typer pakker, men teksten bør velges i henhold til noe felles.
  2. Den resulterende tekstsamling utsatt for forbehandling, er korrigering av feil, om noen, fremstilt ved bibliografiske og ekstra-språklige beskrivelse av teksten.
  3. Elimineres alle ikke-tekstlig informasjon: Fjerner grafikk, bilder, tabeller.
  4. Er en fordeling av symboler, som vanligvis tale, for videre behandling.
  5. Til slutt, bar det morfologiske, syntaktiske og annen merking oppnås flere elementer.

Resultatet av alle transaksjoner som er utført av et syntaktisk struktur med fordelt deri et flertall av elementer, som hver er identifisert del av talen, grammatisk og, i noen tilfeller, de semantiske attributter.

Vanskeligheter med å skape bygninger

Det er viktig å forstå at ikke er nok til å sette sammen et sett av ord eller setninger for kroppen. På den ene side bør en tekstsamling være balansert, det vil si, representere forskjellige typer av tekster i visse mengdeforhold. På den andre - innholdet i kabinettet bør fordeles på en spesiell måte.

Det første problemet er løst ved avtale, for eksempel i samlingen inneholder 60% av litterære tekster, 20% av dokumentarer, en viss prosentandel er gitt en skriftlig uttalelse fra det muntlige språket, lovverk, studier og så videre D. perfekt oppskrift balansert kroppen i dag ikke eksisterer..

Det andre spørsmålet om innholdet layout, løse utfordrende. Det finnes spesielle programmer og algoritmer som brukes for automatisk merking av tekster, men de gir ikke et perfekt resultat, kan føre til forstyrrelser og krever manuell omarbeiding. Muligheter og utfordringer i å håndtere dette problemet er beskrevet i detalj i en artikkel V. P. Zaharova av korpuslingvistikk.

Tekst markup er implementert på flere nivåer, som vi lister nedenfor.

morfologisk tagging

Fra skolen, husker vi at i det russiske språket, er det forskjellige ordklasser, og hver av dem har sine egne særtrekk. For eksempel, verb har kategorier av helning og det tidspunkt ved hvilket ikke substantiv. morsmål uten å nøle avtar substantiver og bøye verb, men for å markere kroppen på 100 millioner kroner. Merker manuell arbeidskraft vil ikke fungere. Alle de nødvendige operasjoner kan utføre datamaskinen, men for det må læres.

Morfologisk tagging, må datamaskinen "forstå" hvert ord som en bestemt ordklasse ha visse grammatiske funksjoner. Siden den russiske (og andre språk) driver en rekke faste regler, er det mulig å bygge en automatisk prosedyre for morfologisk analyse, investere i bilen for en rekke algoritmer. Men det finnes unntak fra regelen, samt ulike kompliserende faktorer. Som et resultat, er netto dataanalyse i dag langt fra ideelt, og selv 4% feil gir en verdi på 4 mln. Ord på kroppen av 100 millioner. Units, som krever manuell omarbeiding.

Detaljert boken beskriver problemet Zaharova V. P. "Corpus Linguistics".

syntaktisk merknad

Parsing eller parsing - en prosedyre som bestemmer forholdet mellom ord i en setning. Ved hjelp av et sett av algoritmer er mulig å bestemme den teksten i faget, predikat, tilføyelser, flere vindinger av tale. Finn ut hvilke ord som er de viktigste sekvensen, og som - avhengig, kan vi effektivt trekke ut informasjon fra tekst og å lære maskinen å utstede som svar på et søk bare den informasjonen interessant oss.

Forresten, moderne søkemotorer bruke dette til å gi ut spesifikke tall i stedet for lange tekster som svar på relevante spørsmål som "hvor mange kalorier i et eple" eller "avstanden fra Moskva til St. Petersburg." Men for å forstå selv de grunnleggende prosessen beskrevet av behovet for å konsultere "Introduksjon til Corpus Linguistics" eller andre grunnleggende opplæringen.

semantisk markup

Semantikk av ordet - er, enkelt sagt, betydningen. Allment gjeldende tilnærming til semantisk analyse av et ord navngivelse tags, som gjenspeiler hans tilhørighet til et sett av semantiske kategorier og underkategorier. Slik informasjon er verdifull for å optimalisere algoritmer analysere tekst tone, automatisk summe og andre oppgaver metoder for korpuslingvistikk.

Det finnes en rekke "root" av treet, som representerer et abstrakt ord med et svært bredt semantikk. Som en gren av de tre noder er dannet, inneholdende mer og mer spesifikke leksikalske elementer. For eksempel kan ordet "skapningen" være forbundet med slike begreper som "human" og "dyr". Det første ordet vil fortsette å armen ut i forskjellige yrker, slektskap begreper, nasjonalitet, og den andre - på klasser og typer dyr.

Bruk av informasjon gjenfinningssystemer

Bruksområder av korpuslingvistikk dekke ulike virksomhetsområder. Husene er anvendt for fremstillingen og korrigering av ordbøker, skape automatiserte translasjonssystemer, kommentere, henting av fakta, som bestemmer tone og annen tekst behandling.

I tillegg er slike ressurser aktivt brukt i studiet av verdens språk og mekanismer for å fungere i språket generelt. Tilgang til store mengder pre-forberedt informasjon muliggjør hurtig og omfattende studie av trender i utvikling språk, og stabil formasjon neologismer tale hastighetsendring verdier leksikalske enheter og andre.

Siden arbeidet med slike store mengder data krever automatisering, i dag er det tett samspill mellom datamaskinen og korpuslingvistikk.

Russian National Corpus

Dette tilfellet (forkortet NKRYA) omfatter en rekke subcorpus, noe som tillater bruk av en kilde for et bredt spekter av oppgaver.

Materialene i databasen er delt NKRYA:

  • til publikasjoner i media 90-tallet og 2000-tallet, både norske og utenlandske,
  • opptak av tale;
  • aktsentologicheski merkede tekster (dvs. merkene av stress);
  • dialekt tale;
  • poesi;
  • Materialer med syntaktiske og andre markeringer.

Informasjonssystemet inneholder også Subcorpus med parallelle oversettelser av verk fra russisk til engelsk, tysk, fransk og mange andre språk (og vice versa).

Også i databasen er det en del av historiske tekster, som representerer skrevet tale på russisk i ulike perioder av sin utvikling. Det er også en trening kroppen, noe som kan være nyttig for utenlandske statsborgere i å beherske det russiske språket.

Russian National Corpus omfatter 400 millioner leksikalske enheter, og på mange måter forut for en betydelig del av de språkene i Europa organer.

prospekter

Faktisk i favør av anerkjennelse av denne trenden er tilgjengeligheten av lovende laboratoriekorpuslingvistikk i russiske universiteter, så vel som utenlandske. Med bruk av og forskning innenfor rammen av denne informasjonen og søk ressurser innebærer utvikling av visse områder innen high-tech, spørsmåls-svare systemer, men det er omtalt ovenfor.

Videreutvikling av corpus lingvistikk er spådd på alle nivåer, fra teknisk og når det gjelder implementering av nye algoritmer som optimaliserer prosesser for å søke og bearbeide informasjon, myndig datamaskiner, mer RAM, og til forbruker, fordi brukerne er flere og flere måter å bruke denne type ressurs i sitt daglige liv og arbeid.

i konklusjonen

I midten av forrige århundre i 2017 virket fjern fremtid, hvor romskip reise gjennom universet og roboter gjøre alt arbeidet for folket. Faktisk er vitenskapen fylt med "hvite flekker" og gjør desperate forsøk på å svare på spørsmål av menneskeheten i århundrer forstyrrende. Spørsmål fungerende språk her okkupere et sted av ære, og skap og datalingvistikk kan hjelpe oss å besvare dem.

Behandling av store datasett kan oppdage mønstre, tidligere utilgjengelige, forutsi utviklingen av spesifikke språk funksjoner for å spore dannelsen av ord i nesten sanntid.

På det praktiske plan, kan den globale vedlegg bli sett, for eksempel som en potensiell verktøy for å vurdere den offentlige stemningen - Internett er en kontinuerlig oppdatert daglig basis ulike tekster laget av reelle brukere: Dette kommentarer og anmeldelser, og artikler, og mange andre former for tale.

I tillegg arbeider med organer bidrar til utvikling av den samme maskinvaren, som er involvert i innhenting av informasjon, er vi kjent med tjenesten "Google" eller "Yandex", maskinoversettelse, elektroniske ordbøker.

Vi kan trygt hevde at corpus lingvistikk gjør bare de første trinnene, og i nær fremtid vil blomstre.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 no.birmiss.com. Theme powered by WordPress.