Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet
Už čtvrt století existuje Ústav Českého národního korpusu (ÚČNK). Stará se o rozvoj akademického projektu, který figuruje v jeho názvu. Databáze českých textů mapuje vývoj a vlastnosti našeho jazyka. Užitečnost Českého národního korpusu (ČNK) dnes ocení nejen jazykovědci, ale každý, kdo se zajímá o češtinu.
Korpusová lingvistika patří mezi vcelku mladé lingvistické obory. Její vznik a rozvoj jde ruku v ruce s rozmachem počítačů a informačních technologií. Zatímco základy této disciplíny položili američtí lingvisté (včetně českého emigranta Henryho Kučery) v 60. letech minulého století, největší boom zažila korpusová lingvistika na přelomu tisíciletí. Do té doby spadá i vznik pracoviště ÚČNK na Filozofické fakultě Univerzity Karlovy, které 9. září 1994 založil profesor František Čermák a dnes patří mezi přední projekty svého druhu na světě.
Shromaždiště dat o jazyku
Základem práce korpusových lingvistů z ÚČNK je vytvářet a zpřístupňovat elektronické databáze autentických textů všeho druhu – jazykové korpusy, díky nimž lze zkoumat proměny a trendy v českém jazyce. Při sestavování korpusů lingvisté dbají o jejich reprezentativní složení a kvalitní zpracování dat. Zajímají se o veškeré podoby češtiny: sledují užití psané i mluvené češtiny jak v běžných, tak formálních situacích.
Čtěte také
Velkou výhodou korpusů je fakt, že v sobě nesou informace o výskytu slov či slovních spojení v jejich přirozeném kontextu a že jsou nepřetržitě doplňovány o nové texty. Právě kontinuita databáze se ukazuje jako zásadní přednost ČNK, která se dvacet pět let po startu projektu začíná naplno projevovat.
Přístup ke korpusům ČNK má po bezplatné registraci na stránce www.korpus.cz každý, kdo o to projeví zájem. Jednoduchou vstupní bránu do světa jazykových korpusů pak představuje nová aplikace Slovo v kostce, spuštěná k letošním narozeninám ÚČNK. Aplikace umí k velkému množství v korpusu doložených českých slov vytvořit základní souhrn informací o jejich užívání ve veřejném prostoru a je ukázkovým příkladem užití ČNK jako spolehlivého zdroje dat v praxi.
Slova pod drobnohledem
Zmíněná aplikace je jedním z příkladů, jak se systematický a kontinuální sběr textů dá v dnešní době využít pro lingvistické účely. Automatická analýza dat dokáže po zadání slova zobrazit údaje o četnosti jeho užívání, typu textu, v jakém se nejčastěji vyskytuje nebo třeba o vzdělání mluvčích.
Při zadání slov „rozhlas“ a „rádio“ např. zjistíme, že slovo „rozhlas“ se v psané češtině let 2010–2014 používalo zhruba o třetinu méně než slovo rádio. Zatímco „rozhlas“ se v tomto období vyskytoval nejčastěji v blízkosti slov, odkazujících k instituci veřejnoprávního média (československý, televize, orchestr…), „rádio“ naopak mělo blízko ke slovům, charakteristickým pro vyjádření činnosti poslechu (FM, naladit, poslouchat…). A podobně je možné srovnávat i data mluveného jazyka.
ÚČNK u příležitosti svého jubilea kromě toho založil také twitterový účet @korpus_cz, kde mají zájemci možnost sledovat aktuality o korpusové lingvistice z domova i ze světa.
Poslechněte si celé ArtCafé, ve kterém mimo jiné uslyšíte rozhovor s ředitelkou festivalu Serial Killer Kamilou Zlatuškovou a producentem Tomášem Hrubým. O hudební složku se tentokrát postaral hudební dramaturg Zdeněk Přidal.
Související
-
Začíná festival Serial Killer. Cesta do Evropy nevede přes rozpočty, ale přes nápady
Letošnímu ročníku dominují norské seriály. Českou tvorbu zastupují v mezinárodní soutěži dva počiny – Bez vědomí v režii Ivana Zachariáše a Zrádci od Viktora Tauše.
-
V českém jazykovém korpusu najdete víc textů než na internetu
Je to zřejmě největší zásobárna slov a textů, která pro český jazyk existuje. Ve vyhledávání je dokonce v mnoha případech chytřejší než internet. Český národní korp...
Více z pořadu
E-shop Českého rozhlasu
Starosvětské příběhy lesníků z časů, kdy se na Šumavě ještě žilo podle staletých tradic.
Václav Žmolík, moderátor


Zmizelá osada
Dramatický příběh viny a trestu odehrávající se v hlubokých lesích nenávratně zmizelé staré Šumavy, několik let po ničivém polomu z roku 1870.