Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet

1. říjen 2019

ArtCafé

Už čtvrt století existuje Ústav Českého národního korpusu (ÚČNK). Stará se o rozvoj akademického projektu, který figuruje v jeho názvu. Databáze českých textů mapuje vývoj a vlastnosti našeho jazyka. Užitečnost Českého národního korpusu (ČNK) dnes ocení nejen jazykovědci, ale každý, kdo se zajímá o češtinu.

Korpusová lingvistika patří mezi vcelku mladé lingvistické obory. Její vznik a rozvoj jde ruku v ruce s rozmachem počítačů a informačních technologií. Zatímco základy této disciplíny položili američtí lingvisté (včetně českého emigranta Henryho Kučery) v 60. letech minulého století, největší boom zažila korpusová lingvistika na přelomu tisíciletí. Do té doby spadá i vznik pracoviště ÚČNK na Filozofické fakultě Univerzity Karlovy, které 9. září 1994 založil profesor František Čermák a dnes patří mezi přední projekty svého druhu na světě.

Shromaždiště dat o jazyku

Základem práce korpusových lingvistů z ÚČNK je vytvářet a zpřístupňovat elektronické databáze autentických textů všeho druhu – jazykové korpusy, díky nimž lze zkoumat proměny a trendy v českém jazyce. Při sestavování korpusů lingvisté dbají o jejich reprezentativní složení a kvalitní zpracování dat. Zajímají se o veškeré podoby češtiny: sledují užití psané i mluvené češtiny jak v běžných, tak formálních situacích.

Čtěte také

Den s češtinou na Vltavě

Velkou výhodou korpusů je fakt, že v sobě nesou informace o výskytu slov či slovních spojení v jejich přirozeném kontextu a že jsou nepřetržitě doplňovány o nové texty. Právě kontinuita databáze se ukazuje jako zásadní přednost ČNK, která se dvacet pět let po startu projektu začíná naplno projevovat.

Přístup ke korpusům ČNK má po bezplatné registraci na stránce www.korpus.cz každý, kdo o to projeví zájem. Jednoduchou vstupní bránu do světa jazykových korpusů pak představuje nová aplikace Slovo v kostce, spuštěná k letošním narozeninám ÚČNK. Aplikace umí k velkému množství v korpusu doložených českých slov vytvořit základní souhrn informací o jejich užívání ve veřejném prostoru a je ukázkovým příkladem užití ČNK jako spolehlivého zdroje dat v praxi.

Slova pod drobnohledem

Zmíněná aplikace je jedním z příkladů, jak se systematický a kontinuální sběr textů dá v dnešní době využít pro lingvistické účely. Automatická analýza dat dokáže po zadání slova zobrazit údaje o četnosti jeho užívání, typu textu, v jakém se nejčastěji vyskytuje nebo třeba o vzdělání mluvčích.

Ukázka toho, co se dá díky projektu Slovo v kostce zjistit například o slově rádio.|foto: Český národní korpus

Při zadání slov „rozhlas“ a „rádio“ např. zjistíme, že slovo „rozhlas“ se v psané češtině let 2010–2014 používalo zhruba o třetinu méně než slovo rádio. Zatímco „rozhlas“ se v tomto období vyskytoval nejčastěji v blízkosti slov, odkazujících k instituci veřejnoprávního média (československý, televize, orchestr…), „rádio“ naopak mělo blízko ke slovům, charakteristickým pro vyjádření činnosti poslechu (FM, naladit, poslouchat…). A podobně je možné srovnávat i data mluveného jazyka.

ÚČNK u příležitosti svého jubilea kromě toho založil také twitterový účet @korpus_cz, kde mají zájemci možnost sledovat aktuality o korpusové lingvistice z domova i ze světa.

Poslechněte si celé ArtCafé, ve kterém mimo jiné uslyšíte rozhovor s ředitelkou festivalu Serial Killer Kamilou Zlatuškovou a producentem Tomášem Hrubým. O hudební složku se tentokrát postaral hudební dramaturg Zdeněk Přidal.

autor: Tomáš Dufka

Spustit audio

Všechny díly pořadu na mujRozhlas

Související

Začíná festival Serial Killer. Cesta do Evropy nevede přes rozpočty, ale přes nápady

Letošnímu ročníku dominují norské seriály. Českou tvorbu zastupují v mezinárodní soutěži dva počiny – Bez vědomí v režii Ivana Zachariáše a Zrádci od Viktora Tauše.

Přehrát
V českém jazykovém korpusu najdete víc textů než na internetu

Je to zřejmě největší zásobárna slov a textů, která pro český jazyk existuje. Ve vyhledávání je dokonce v mnoha případech chytřejší než internet. Český národní korp...

Přehrát

Jak nás naladíte na DABu

E-shop Českého rozhlasu

Kdo jste vy? Klára, nebo učitel?

Tereza Kostková, moderátorka ČRo Dvojka

Jak Klára obrátila všechno vzhůru nohama

Koupit

Knížka režiséra a herce Jakuba Nvoty v překladu Terezy Kostkové předkládá malým i velkým čtenářům dialogy malé Kláry a učitele o světě, který se dá vnímat docela jinak, než jak se píše v učebnicích.

Shromaždiště dat o jazyku

Čtěte také

Den s češtinou na Vltavě

Slova pod drobnohledem

Související

Začíná festival Serial Killer. Cesta do Evropy nevede přes rozpočty, ale přes nápady

V českém jazykovém korpusu najdete víc textů než na internetu

Více z pořadu

K debutovému albu hudebnici a básnířku dovedl životní zvrat a setkání s Radůzou

Kurt Cobain – punkový přístup k showbyznysu, citlivá duše i feminista

Jak se návrháři Vanda Janda a Tobias Schubert připravují na Fashion Week?

Patří veřejný prostor měst i náctiletým a mladým dospělým?

E-shop Českého rozhlasu

Kdo jste vy? Klára, nebo učitel?

Jak Klára obrátila všechno vzhůru nohama

Tajuplný ostrov

Vražda pro Zlatého muže

Nebe na zemi