Jak vybrat z textu jen podstatná jména

Od: t944 23.11.23 14:47 odpovědí: 4 změna: 24.11.23 09:13

Mám vetší množství textu (txt, doc, xls) a potřebuji z něj vyseparovat jen podstatná jména. Jak to zautomatizovat? Je na to nějkaký nástroj či AI? Co na to použít?

Nebo je to úplně sci-fi?

Děkuji

T944

Odpovědět na otázku

4 odpovědi na otázku

Řazeno dle hodnocení

rumicek®

23.11.23 15:43

Optal jsem se ChatGPT a dostal jsem tuto odpověď:

Ano, existují nástroje a metody, které mohou pomoci extrahovat podstatná jména z velkého množství textu. Tyto metody se obvykle spoléhají na zpracování přirozeného jazyka (NLP) a mohou být implementovány pomocí různých programovacích jazyků a knihoven. Několik přístupů zahrnuje:

Python a Knihovna NLTK nebo SpaCy: Tyto knihovny jsou velmi populární pro úlohy zpracování přirozeného jazyka. Umožňují provádět tzv. "part-of-speech tagging" (POS tagging), což je proces, při kterém jsou slovům v textu přiřazeny jejich gramatické kategorie, jako jsou podstatná jména, slovesa atd.

Online Nástroje: Existují online nástroje a služby, které mohou provádět analýzu textu a extrahovat z něj podstatná jména. Tyto nástroje mohou být omezenější a méně přizpůsobitelné než programovací knihovny, ale jsou snadno použitelné bez nutnosti programování.

Nástroje pro Textovou Analýzu: Existují i specializované software pro textovou analýzu, které nabízejí pokročilé funkce, včetně extrakce podstatných jmen, analýzy sentimentu, četnostní analýzy a další.

Pokud nejste obeznámeni s programováním, online nástroje mohou být vhodnou volbou. Pokud máte zkušenosti s programováním, Python s knihovnami jako NLTK nebo SpaCy nabízí flexibilní a mocné řešení.

bimbam®

23.11.23 16:02

Zajímavé. jen jestli je to spolehlivé na 100 %. Jestl to rozliší stejně napsané různé druhy slov.

Lež (nepravda x rozkaz. způsob slovesa) mezi (předložka x na mezi), ženu (4. pád x ženu stádo). Takových slov je velice mnoho. Ale tazatel se jistě autorů těch hledacích metod zeptá.

mll

23.11.23 16:42

Já si spíš říkám, jestli platí odpověď i pro češtinu. V angličtině je slovní druh do značné míry daný polohou ve větě, takže se asi stanoví pár pravidel pro odlišení podmětu, slovesa, předmětu podle typu věty a stačí vypsat podměty a předměty. (Teda když to hodně zjednodušim, když beru jen princip (syntaxi) angličtiny. Je to docela výhoda při čtení anglického textu, i když nějakému slovu nerozumíte, gramaticky ho zařadíte. A právě takové nejednoznačnosti nevznikají tak často.)

Čeština je podle mě mnohem složitější. Slova si skládáme, jak chceme. Takže takové jednoduché rozpoznávání odpadá. Ale jistě se tím programátoři zabývají celá léta.

rumicek®

24.11.23 09:13

Odpovědi AI mi v často připadají stylisticky, gramaticky i věcně lepší, než většina odpovědí v této poradně...

[přidat komentář]

Přidat svou odpověď

Přihlásit se k odběru odpovědí z této otázky:

Neneseme odpovědnost za správnost informací a za škodu vzniklou jejich využitím. Jednotlivé odpovědi vyjadřují názory jejich autorů a nemusí se shodovat s názorem provozovatele poradny Poradte.cz.

Používáním poradny vyjadřujete souhlas s personifikovanou reklamou, která pomáhá financovat tento server, děkujeme.