Otevřít hlavní menu

Dolování z textu (angl. Text mining [text majnyn]) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se především s potřebou automatického zpracování ohromného množství informací dostupných v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací[1] jim tak zůstává nepřístupná.

Typické úlohyEditovat

Určování druhu textůEditovat

(text categorization) Cílem je přiřadit k danému textu jednu, či více kategorií z předem daného výčtu (např. sport, politika, krimi, …). Typicky je prováděno na základě četností slov vyskytujících se v textech jednotlivých kategorií některou z technik strojového učení.

Shlukování textů/dokumentůEditovat

(text clustering) Úloha je principiálně podobná určování druhu textů. Místo zařazování do předem daných kategorií jsou však jednotlivé texty dávány do skupin na základě jejich vzájemných podobností. Každý dokument je tak obvykle zařazen právě do jedné skupiny. Vytvořené skupiny mohou, ale nemusí odpovídat očekávaným kategoriím (burzovní zprávy a sportovní výsledky mohou například spadnout do jedné kategorie na základě faktu, že obsahují větší množství čísel).

Shrnutí textuEditovat

(text summary) K vytvoření krátkého shrnutí textu se dá přistupovat dvěma způsoby, buď z textu vybrat nejdůležitější pasáže (např. věty) a ty vhodně seřadit (summary extraction) anebo je možné text hlouběji analyzovat a na základě jeho sémantické reprezentace parafrázovat jeho obsah (summary abstraction). Druhý z obou přístupů by měl poskytovat lepší výsledky, ve skutečnosti však sémantická analýza ani následné generování souvislého textu dosud není na takové úrovni, aby překonala výsledky prvně zmíněného přístupu.

Analýza sentimentuEditovat

Podrobnější informace naleznete v článku Analýza sentimentu.

(sentiment analysis) Na základě výskytu citově zabarvených slov lze usuzovat na autorův pozitivní či negativní postoj k předmětu zprávy. To může být užitečná informace obzvláště ve spojení s tematicky zaměřenými diskusními fóry.

Extrakce konceptů; rozpoznání pojmenovaných entitEditovat

(concept extraction; named entity recognition) Jde o určení entit, které jsou v textu zmíněny (např. v článku o V. Klausovi by tedy výrazy "Václav Klaus" a "prezident" měly být přiřazeny stejné entitě). Problém úzce souvisí s desambiguací slovních významů a tudíž patří k těm základním problémům zpracování přirozeného jazyka.

Určení vztahu mezi entitamiEditovat

Dokážeme-li v textu určit pojmenované entity, můžeme na základě analýzy vět (např. pomocí rámců – FrameNet) určit jejich vztahy (např. z výrazu "Sarkozy se oženil s Bruinovou" je možné získat vztah, že Bruinová je manželkou Sarkozyho)

ReferenceEditovat