From Wikipedia, the free encyclopedia
Besedilni korpusi (oz. v jezikoslovnem strokovnem jeziku tudi zgolj korpusi) so obsežne zbirke besedil v naravnem jeziku, zajete v določenem obdobju iz množičnih medijev (časopisnega in revijalnega tiska), knjižne produkcije, stripov, interneta, reklamnih besedil, navodil priloženih izdelkom široke potrošnje, prepisov parlamentarnih razprav ipd, shranjene v strukturirani obliki običajno na digitalnih medijih in s pomočjo jezikovnih tehnologij pogosto opremljene z označbami. Za sodobno jezikoslovje so korpusi podatkovne infrastrukture, podobno kot so za sodobne družboslovne znanosti različne baze družboslovnih podatkov.
Med označbe, ki jih vsebujejo nekateri korpusi, spadajo leme, tj. osnovne oblike besed, oblikoskladenjske označbe, skladenjske označbe in še nekatere druge označbe, ki se uporabljajo ne le za namene korpusnega jezikoslovja, ampak tudi za namene prepoznavanje govora in strojnega prevajanja v računalniški lingvistiki.
Najobsežnejši in referenčni korpus za slovenščino je Gigafida. Poleg referenčnega korpusa pisne slovenščine je na voljo tudi referenčni korpus govorjene slovenščine GOS [1]. Ni znano ali korpusa vsebujeta tudi prepise televizijskih oddaj RTV Slovenija, javno dostopnih na Odprtem kopu.
Glede na jezik besedil delimo korpuse na enojezikovne (besedila v enem samem jeziku) in na večjezikovne (besedila v več jezikih). Večjezikovni so nadalje lahko primerljivi ali vzporedni.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.