Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet
Už čtvrt století existuje Ústav Českého národního korpusu (ÚČNK). Stará se o rozvoj akademického projektu, který figuruje v jeho názvu. Databáze českých textů mapuje vývoj a vlastnosti našeho jazyka. Užitečnost Českého národního korpusu (ČNK) dnes ocení nejen jazykovědci, ale každý, kdo se zajímá o češtinu.
Korpusová lingvistika patří mezi vcelku mladé lingvistické obory. Její vznik a rozvoj jde ruku v ruce s rozmachem počítačů a informačních technologií. Zatímco základy této disciplíny položili američtí lingvisté (včetně českého emigranta Henryho Kučery) v 60. letech minulého století, největší boom zažila korpusová lingvistika na přelomu tisíciletí. Do té doby spadá i vznik pracoviště ÚČNK na Filozofické fakultě Univerzity Karlovy, které 9. září 1994 založil profesor František Čermák a dnes patří mezi přední projekty svého druhu na světě.
Shromaždiště dat o jazyku
Základem práce korpusových lingvistů z ÚČNK je vytvářet a zpřístupňovat elektronické databáze autentických textů všeho druhu – jazykové korpusy, díky nimž lze zkoumat proměny a trendy v českém jazyce. Při sestavování korpusů lingvisté dbají o jejich reprezentativní složení a kvalitní zpracování dat. Zajímají se o veškeré podoby češtiny: sledují užití psané i mluvené češtiny jak v běžných, tak formálních situacích.
Čtěte také
Velkou výhodou korpusů je fakt, že v sobě nesou informace o výskytu slov či slovních spojení v jejich přirozeném kontextu a že jsou nepřetržitě doplňovány o nové texty. Právě kontinuita databáze se ukazuje jako zásadní přednost ČNK, která se dvacet pět let po startu projektu začíná naplno projevovat.
Přístup ke korpusům ČNK má po bezplatné registraci na stránce www.korpus.cz každý, kdo o to projeví zájem. Jednoduchou vstupní bránu do světa jazykových korpusů pak představuje nová aplikace Slovo v kostce, spuštěná k letošním narozeninám ÚČNK. Aplikace umí k velkému množství v korpusu doložených českých slov vytvořit základní souhrn informací o jejich užívání ve veřejném prostoru a je ukázkovým příkladem užití ČNK jako spolehlivého zdroje dat v praxi.
Slova pod drobnohledem
Zmíněná aplikace je jedním z příkladů, jak se systematický a kontinuální sběr textů dá v dnešní době využít pro lingvistické účely. Automatická analýza dat dokáže po zadání slova zobrazit údaje o četnosti jeho užívání, typu textu, v jakém se nejčastěji vyskytuje nebo třeba o vzdělání mluvčích.
Při zadání slov „rozhlas“ a „rádio“ např. zjistíme, že slovo „rozhlas“ se v psané češtině let 2010–2014 používalo zhruba o třetinu méně než slovo rádio. Zatímco „rozhlas“ se v tomto období vyskytoval nejčastěji v blízkosti slov, odkazujících k instituci veřejnoprávního média (československý, televize, orchestr…), „rádio“ naopak mělo blízko ke slovům, charakteristickým pro vyjádření činnosti poslechu (FM, naladit, poslouchat…). A podobně je možné srovnávat i data mluveného jazyka.
ÚČNK u příležitosti svého jubilea kromě toho založil také twitterový účet @korpus_cz, kde mají zájemci možnost sledovat aktuality o korpusové lingvistice z domova i ze světa.
Poslechněte si celé ArtCafé, ve kterém mimo jiné uslyšíte rozhovor s ředitelkou festivalu Serial Killer Kamilou Zlatuškovou a producentem Tomášem Hrubým. O hudební složku se tentokrát postaral hudební dramaturg Zdeněk Přidal.
Mohlo by vás zajímat
Nejposlouchanější
-
Antoine de Saint-Exupéry: Válečný pilot. Příběh nesmyslného a málem sebevražedného průzkumného letu
-
Jiří Bartoška v hlavní roli hry o osamělosti a naději na americkém předměstí
-
Hallgrímur Helgason: Ženská na 1000°. Drsná i humorná zpověď prezidentské vnučky z Islandu
-
Talent se dá nejen naplnit, ale dokonce i překonat, říká malíř Vladimír Kokolia
Více z pořadu
E-shop Českého rozhlasu
Víte, kde spočívá náš společný ukrytý poklad? Blíž, než si myslíte!
Jan Rosák, moderátor


Slovo nad zlato
Víte, jaký vztah mají politici a policisté? Kde se vzalo slovo Vánoce? Za jaké slovo vděčí Turci husitům? Že se mladým paním původně zapalovalo něco úplně jiného než lýtka? Že segedínský guláš nemá se Segedínem nic společného a že známe na den přesně vznik slova dálnice? Takových objevů je plná knížka Slovo nad zlato. Tvoří ji výběr z rozhovorů moderátora Jana Rosáka s dřívějším ředitelem Ústavu pro jazyk český docentem Karlem Olivou, které vysílal Český rozhlas Dvojka.