Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet

1. říjen 2019

Už čtvrt století existuje Ústav Českého národního korpusu (ÚČNK). Stará se o rozvoj akademického projektu, který figuruje v jeho názvu. Databáze českých textů mapuje vývoj a vlastnosti našeho jazyka. Užitečnost Českého národního korpusu (ČNK) dnes ocení nejen jazykovědci, ale každý, kdo se zajímá o češtinu. 

Korpusová lingvistika patří mezi vcelku mladé lingvistické obory. Její vznik a rozvoj jde ruku v ruce s rozmachem počítačů a informačních technologií. Zatímco základy této disciplíny položili američtí lingvisté (včetně českého emigranta Henryho Kučery) v 60. letech minulého století, největší boom zažila korpusová lingvistika na přelomu tisíciletí. Do té doby spadá i vznik pracoviště ÚČNK na Filozofické fakultě Univerzity Karlovy, které 9. září 1994 založil profesor František Čermák a dnes patří mezi přední projekty svého druhu na světě.

Shromaždiště dat o jazyku

Základem práce korpusových lingvistů z ÚČNK je vytvářet a zpřístupňovat elektronické databáze autentických textů všeho druhu jazykové korpusy, díky nimž lze zkoumat proměny a trendy v českém jazyce. Při sestavování korpusů lingvisté dbají o jejich reprezentativní složení a kvalitní zpracování dat. Zajímají se o veškeré podoby češtiny: sledují užití psané i mluvené češtiny jak v běžných, tak formálních situacích.

Čtěte také

Velkou výhodou korpusů je fakt, že v sobě nesou informace o výskytu slov či slovních spojení v jejich přirozeném kontextu a že jsou nepřetržitě doplňovány o nové texty. Právě kontinuita databáze se ukazuje jako zásadní přednost ČNK, která se dvacet pět let po startu projektu začíná naplno projevovat.

Přístup ke korpusům ČNK má po bezplatné registraci na stránce www.korpus.cz každý, kdo o to projeví zájem. Jednoduchou vstupní bránu do světa jazykových korpusů pak představuje nová aplikace Slovo v kostce, spuštěná k letošním narozeninám ÚČNK. Aplikace umí k velkému množství v korpusu doložených českých slov vytvořit základní souhrn informací o jejich užívání ve veřejném prostoru a je ukázkovým příkladem užití ČNK jako spolehlivého zdroje dat v praxi.

Slova pod drobnohledem

Zmíněná aplikace je jedním z příkladů, jak se systematický a kontinuální sběr textů dá v dnešní době využít pro lingvistické účely. Automatická analýza dat dokáže po zadání slova zobrazit údaje o četnosti jeho užívání, typu textu, v jakém se nejčastěji vyskytuje nebo třeba o vzdělání mluvčích.

Slovo v kostce

Při zadání slov „rozhlas“ a „rádio“ např. zjistíme, že slovo „rozhlas“ se v psané češtině let 20102014 používalo zhruba o třetinu méně než slovo rádio. Zatímco „rozhlas“ se v tomto období vyskytoval nejčastěji v blízkosti slov, odkazujících k instituci veřejnoprávního média (československý, televize, orchestr…), „rádio“ naopak mělo blízko ke slovům, charakteristickým pro vyjádření činnosti poslechu (FM, naladit, poslouchat…). A podobně je možné srovnávat i data mluveného jazyka.

ÚČNK u příležitosti svého jubilea kromě toho založil také twitterový účet @korpus_cz, kde mají zájemci možnost sledovat aktuality o korpusové lingvistice z domova i ze světa.

Poslechněte si celé ArtCafé, ve kterém mimo jiné uslyšíte rozhovor s ředitelkou festivalu Serial Killer Kamilou Zlatuškovou a producentem Tomášem Hrubým. O hudební složku se tentokrát postaral hudební dramaturg Zdeněk Přidal.

autor: Tomáš Dufka
Spustit audio

Související