Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet
Už čtvrt století existuje Ústav Českého národního korpusu (ÚČNK). Stará se o rozvoj akademického projektu, který figuruje v jeho názvu. Databáze českých textů mapuje vývoj a vlastnosti našeho jazyka. Užitečnost Českého národního korpusu (ČNK) dnes ocení nejen jazykovědci, ale každý, kdo se zajímá o češtinu.
Korpusová lingvistika patří mezi vcelku mladé lingvistické obory. Její vznik a rozvoj jde ruku v ruce s rozmachem počítačů a informačních technologií. Zatímco základy této disciplíny položili američtí lingvisté (včetně českého emigranta Henryho Kučery) v 60. letech minulého století, největší boom zažila korpusová lingvistika na přelomu tisíciletí. Do té doby spadá i vznik pracoviště ÚČNK na Filozofické fakultě Univerzity Karlovy, které 9. září 1994 založil profesor František Čermák a dnes patří mezi přední projekty svého druhu na světě.
Shromaždiště dat o jazyku
Základem práce korpusových lingvistů z ÚČNK je vytvářet a zpřístupňovat elektronické databáze autentických textů všeho druhu – jazykové korpusy, díky nimž lze zkoumat proměny a trendy v českém jazyce. Při sestavování korpusů lingvisté dbají o jejich reprezentativní složení a kvalitní zpracování dat. Zajímají se o veškeré podoby češtiny: sledují užití psané i mluvené češtiny jak v běžných, tak formálních situacích.
Čtěte také
Velkou výhodou korpusů je fakt, že v sobě nesou informace o výskytu slov či slovních spojení v jejich přirozeném kontextu a že jsou nepřetržitě doplňovány o nové texty. Právě kontinuita databáze se ukazuje jako zásadní přednost ČNK, která se dvacet pět let po startu projektu začíná naplno projevovat.
Přístup ke korpusům ČNK má po bezplatné registraci na stránce www.korpus.cz každý, kdo o to projeví zájem. Jednoduchou vstupní bránu do světa jazykových korpusů pak představuje nová aplikace Slovo v kostce, spuštěná k letošním narozeninám ÚČNK. Aplikace umí k velkému množství v korpusu doložených českých slov vytvořit základní souhrn informací o jejich užívání ve veřejném prostoru a je ukázkovým příkladem užití ČNK jako spolehlivého zdroje dat v praxi.
Slova pod drobnohledem
Zmíněná aplikace je jedním z příkladů, jak se systematický a kontinuální sběr textů dá v dnešní době využít pro lingvistické účely. Automatická analýza dat dokáže po zadání slova zobrazit údaje o četnosti jeho užívání, typu textu, v jakém se nejčastěji vyskytuje nebo třeba o vzdělání mluvčích.
Při zadání slov „rozhlas“ a „rádio“ např. zjistíme, že slovo „rozhlas“ se v psané češtině let 2010–2014 používalo zhruba o třetinu méně než slovo rádio. Zatímco „rozhlas“ se v tomto období vyskytoval nejčastěji v blízkosti slov, odkazujících k instituci veřejnoprávního média (československý, televize, orchestr…), „rádio“ naopak mělo blízko ke slovům, charakteristickým pro vyjádření činnosti poslechu (FM, naladit, poslouchat…). A podobně je možné srovnávat i data mluveného jazyka.
ÚČNK u příležitosti svého jubilea kromě toho založil také twitterový účet @korpus_cz, kde mají zájemci možnost sledovat aktuality o korpusové lingvistice z domova i ze světa.
Poslechněte si celé ArtCafé, ve kterém mimo jiné uslyšíte rozhovor s ředitelkou festivalu Serial Killer Kamilou Zlatuškovou a producentem Tomášem Hrubým. O hudební složku se tentokrát postaral hudební dramaturg Zdeněk Přidal.
Mohlo by vás zajímat
Nejposlouchanější
-
Psí voják Filip Topol. Portrét hudebníka, básníka a sebevraha životem
-
Miloš Doležal: Čurda ze Staré Hlíny – příběh parašutisty. Jedna zrada, stovky českých životů
-
Případy Sherlocka Holmese, otce Browna, slečny Marplové a dalších anglických detektivů
-
Richard Brautigan: V melounovém cukru. Psychedelický román, který uchvátil generaci hippies
Více z pořadu
E-shop Českého rozhlasu
Přijměte pozvání na úsměvný doušek moudré člověčiny.
František Novotný, moderátor


Setkání s Karlem Čapkem
Literární fikce, pokus přiblížit literární nadsázkou spisovatele, filozofa, ale hlavně člověka Karla Čapka trochu jinou formou.