Linux wget

Od: jann* 06.07.18 09:56 odpovědí: 40 změna: 25.07.18 22:47

Prosím poradí mi někdo, jak pomocí wget stáhnout celou webovou stránku včetně všech jejjich podstránek, obrázků, videí, javascriptů, aspx, php a jak zvolit cílovou složku kam to chci ukládat (jaké použít parametry příkazu wget?)

Odpovědět na otázku Skočit na nejnovější odpověď

40 odpovědí na otázku

Řazeno dle hodnocení

michal348*

06.07.18 11:33

[?]

php a asp/aspx nestáhneš protože je na straně serveru, ledaže by jsi měl přihlašovací údaje. Pro stažení všeho ze stránky používám tohle:

wget -m -A * -pk -e robots=off https://stranka.com/

Jinak všechno jde najít v man wget nebo wget --help

doplněno 06.07.18 11:48:

Pokud to chcete do jiné složky tak k ní musíte uvést cestu v parametru -P

wget -m -A * -pk -e robots=off -P /cesta/ https://stranka.com/

*php soubory jdou nakonec stáhnout také

doplněno 06.07.18 21:28:

Už nemůžu odpovídat tak to píšu sem: --random-wait čeká náhodně 0,5 - 1,5 sekundy před dalším požadavkem na soubor -W 5 čeká stanovený počet sekund před každým stažením (v ukázce 5)

-m je zkratka pro -r (rekurzivní) -N (stahovat pouze pokud je to co chci stáhnou novější než to co už mám stažené (nestahuje zbytečně to co už je stažené)) -l (stahovat všechny další soubory na které odkazuje stahovaný soubor) takže tyhle 3 parametry jsou v jednom -m

jann*

06.07.18 13:57

A jde tímto stáhnout také .aspx v http podobě?

A jak se bude stahovat stránka webová, když bude https, prosím uvedl byste mi příklad.

A nějaký jiný nástroj či metodu jak získat aspx nevíte, chtěl bych ho nějak získat z webu?

A ještě je wget dostupný i pro Windows a z jaké důvěryhodné stránky ho stáhnout? A jaké jsou spolehlivé GUI wget verze?

Prosím o rady. Jinak díky za odpověď.

michal348*

06.07.18 14:20

[?]

jde stáhnout v html -asi si pletete co je http a html,

http/https je protokol kterým se přenáší webové stránky, v podobě http jako čistý text, v podobě https jako šifrovaný "text"

html je značkovací jazyk ve kterém se píší webové stránky a podle kterého jsou následně zobrazovány v prohlížeči

aspx soubor jako takový stáhnout nejde protože ten je uložen pouze na serveru a k vám do prohlížeče se posílá již vygenerované html, takže si můžete stáhnout jen výsledek onoho aspx "dokumentu"

wget pro windows je, ale je hoooodně staré, wget s gui neznám, ale zatím jsem nenarazil na stránku která by nešla stáhnout přímo z prohlížeče tedy pokud nejsou nějaké velice specifické požadavky (automatizace, pouze jedny druhy souborů atd)

jann*

06.07.18 15:58

Prosím o zaslání odkazu ke stažení na wget pro Windows i pro Linux. A pro Linux je wget novější, jaký rok? A ve Windows jde i nějak wget přes PowerShell?

michal348*

06.07.18 16:16

[?]

gnuwin32.sourceforge.net/... nebo eternallybored.org/... pro windows pro linux se nainstaluje normálně pomocí package manageru v terminálu (apt, yum, pacman... záleží podle distribuce), nebo to jde možná i graficky ale to záleží na distribuci, pokud již není předinstalován protože některé distribuce jej již mají, pomocí powershell, powershell absolutně neznám jen vím že ve windowsu; na internetu byla nějaká řešení ale ani jedno z nich mi nefungovalo takže to opravdu nevím

-Druhý link má novější verzi wget a ten můj původní příkaz by pro něj měl fungovat

jann*

06.07.18 18:00

Prosím můžeš mi ještě vysvětlit ty tvoje parametry příkazu -m -A * -pk -e robots=off. A ještě co dělá parametr rekurziv?

michal348*

06.07.18 20:02

[?]

rekurzivní stažení je že: Pokud to narazi na nějaký souvbor v kterém jsou odkazy na jiný soubor tak to nejprve stáhne ten první soubor potom soubory na které ten 1 soubor odkazuje pak ty na které odkazuje 2soubor a tak dál a dál.

což prakticky dělá ten -m parametr, -A * : -A znamená že má stahovat všechny zadané typy souborů a "*" je univerzální znak pro "vše"

-e norobots=off je zjednodušeně že se má stahovat úplně všechno

jann*

06.07.18 20:45

Díky. A ještě, je nějaký rozdíl mezi parametrem -r a -m? Jde nějak nastavit nějaký limit/omezení, tak aby to moc nezatěžovalo cílový webserver, ze kterého se to stahuje? Prosím ještě mi poraď nějaké jiné užitečné parametry, které by se mohly hodit.

jann*

06.07.18 21:49

A ještě co znamená ten parametr -pk a kdy se používá jedno - a kdy --?

nekdouplnejiny

07.07.18 11:05

[?]

-pk jsem již v nápovědě nenašel ale je možné že bylo ve staré verzi?

Každopádně rozdíl mezi - a -- je to většinou univezrální dělení argumetů konzolovým programům -[písmeno] je zkrácený zápis a --[celý-vypsaný-argument] je celý zápis daného argumentu programu - častý příklad -v --verbose (Oba dva dělají totéž a tím je že zvyšují úroveň množství informací které nám program zděluje o běžícím procesu), je to prostě jiný způsob jak argumenty zapsat, takže všechny výše uvedené argumenty by se dali zapsat také takto:

wget --mirror --accept * --reject pdf --execute robots=off --directory-prefix /cilovaslozka/ http://www.web.com/

Dále ještě k nenamáhání serveru tak můžete použít -R což je pro vynechání určitých souborů které nechete, zapisuje se takto: -R png,jpg,pdf

Pokud by jste chtěli aby vlastník stránky nevěděl že stahujete jejich soubory pomocí wget tak si můžete vybrat prohlížeč:

-U mozilla nebo --user-agent mozzila

dále pokud bylo potřeba nějaké další info tak -S vpíše odpověď serveru, kdyby naopak nebyl potřeba žádný výstup tak lze použít "tichý mód": -q kdy se nevypisuje žádný výstup.

--show-progress zobrazí "řádek"průběhu stahování i když je zaplé -q

Dále už si musíte pročíst nápovědu sám a zjistit si co se vám bude hodit, protože vy víte proč chcete ty stránky stahovat jestli to má být automatizované nebo jen pro příležitostné stažení, nápověda se zobrazuje: wget --help a můžete se podívat jestli se bude hodit něco konkrétně vám.

Jinak kdyby něco nebylo jasné tak se můžete ptát dál.

jann*

07.07.18 11:53

Je nějaký rozdíl mezi -e robots=off x -e norobots=off a co dělají?

A jo to -e robots to se najde kde v nápovědě, nenašel jsem to tam?

A to -U -S -R se musí psát vždycky velký aby to měl ten správný význam nebo i malýma písmena to jde psát?

nekdouplnejiny

07.07.18 12:12

[?]

ups -e robots=off "norobots"neexistuje, moje chyba, robost=off značí že robots.txt se má ignorovat, "robots.txt" je většinou soubor na webových serverech který udává jak se k určitým stránkám na serveru mají chovat "roboti"(většinou robotů vyhledávácích nástrojů jako google atd) v tomto souboru bývá napsané jaké části webu nemají "prohledávat"případně nějaké další pravidla (jak dlouho čekat než smí prohledat další stránku (aby nezatěžovali server nebo neprocházeli soukromá data atd))

Parametry jsou citlivé na velká a malá písmena, a zda mají být velká nebo malá je vždy v nápovědě

-e robots=off není přímo v nápovědě ale měl by být udán v dokumentaci wget kterou se taky vyplatí přečíst pokud s ním budete pracovat častěji (ale vše je v angličtině)

gnu.org/...

jann*

07.07.18 12:31

Existuje to -pk nebo ne?

A ještě jaká je logika příkazu z matematického hlediska, příkaz samotný se bere jako proměnná či co a - se bere jako parametr (parametr je to samé co argument)?

A existují i kompletní české nápovědy a kompletní manuály k wget?

nekdouplnejiny

07.07.18 13:06

[?]

-pk bude kombinace -p (stáhni všechny obrázky nutné k zobrazení html) a -k (převést odkazy v souborech na lokální cesty k souborům)

příkaz je vlastně něco takového:

[nátezev programu] -agument [parametr argumentu]

příklad s cestou pro stažení: wget -P /cesta/ (alespoň tak jsem to pochopil já) ale víceméně na tom nezáleží používá se to různě hlavně podle zvyku a pro většinu lidí co znám platí že argument==parametr

kompletní české manuály.. našel jsem fora kde se o tom baví ale všechny linky jsou mrtvé, tohle je asi jediný relevantní který jsem našel, jestli pomůže vojta.kalcik.cz/...

jann*

07.07.18 14:01

Díky. A název programu to by bylo z matematického hlediska co proměnná nebo něco jiného? Jentak ze zvědavoti mě to zajímá.

A ještě jde přes wget stahovat i z ftps? A jde nějak nastavit průzkumínka ve Windows pro ftps, protože dřív mi pomocí něj šlo stahovat z ftp, ale z ftps nejde, nevím co nastavit/nenastavit, nevím jestli to vůbec možné?

nekdouplnejiny

07.07.18 14:30

[?]

Hmm z matematického hlediska... to fakt nevím ale z programovacího by to byla funkce (nejsu si jistý jak přesně funkce fungují v matematice) ale agrumenty/parametry by byly rozhodně proměnné

Z Ftp/fpts jde stahovat v pohodě je tomu i věnovaná sekce v nápovědě , nejjednodušeji to jde nějak takhle:

wget --ftp-user uzivatel --ftp-password heslo ftp://server.dome/...

jak se připojit na ftp pře průzkumník windows netuším, já používám pro ftp FileZilla a tam je to fakt jednoduché takže jsem nic s ftps řešit nemusel

jann*

07.07.18 14:38

A funguje v tom FileZilla, že když se to stáhne z FTPS do lokální disku s NTFS, tak že to zachová původní čas změny složky na serveru?

nekdouplnejiny

07.07.18 14:49

[?]

To jsem nikdy nezjišťoval ale myslím si že už jen logicky by se tyto údaje měnit neměly když se na serveru "nic nemění"

jann*

07.07.18 14:51

A ještě k čemu slouží toto a kdy je to nutné použít a co znamená obrácené lomeno ? # Log in to the server. This can be done only once.wget --save-cookies cookies.txt --post-data user=foo&password=bar example.com/... Now grab the page or pages we care about.wget --load-cookies cookies.txt -p example.com/...

nekdouplnejiny

07.07.18 15:07

[?]

Obrácené lomeno v Bashi (terminálové prostředí linuxu) prodlouží příkaz na další řádek a není nutné ho použít nikdy (vždycky je to volitelné), a ani nevím jestli má nějaké zastoupení ve windows

jann*

07.07.18 16:53

Díky.A ještě prosím ještě o vysvětlení, když je bash terminálové prostředí linuxu, tak existuje i jiné prostředí než bash v závislosti na distribucích Linuxu? A kdyby bylo/je něco jiného než bash, tak některé příkazy by tam nemuseli jít zadat, které jdou v bashi?

nekdouplnejiny

07.07.18 17:28

[?]

Bash je intrepreter (něco jako Lua, Python), u windows je to Batch, a pokud vím tak bash mají všechny linuxové distribuce. Bash se většinou používá jen ke spouštění jiných programů, popřípadě manipulaci se soubory, ale většina těch "příkazů" jsou stejně jen jiné programy které přes bash spouštíme

jann*

07.07.18 17:42

Prosím vysvětlíš mi ještě k čemu slouží interpreter, jakou funkci plní v operačním systému? A co je Lua, Python? Python vím akorát, že je nějaký proramovací jazyk.

nekdouplnejiny

07.07.18 18:16

[?]

Interpreter je program který interpretuje tvoje příkazy podle nějakého jazyka (bash, batch, lua, python) buď jej píšeš přímo do něj nebo je můžeš napsat do skriptu a ten pak kdykoliv spustit a interpreter půjde řádek po řádku a vyplní vše co je tam napsané (interpretování)

jann*

07.07.18 18:46

Můžu se ještě zeptat, když se píše v helpu, že

-S, --server-response print server response
--spider dont download anything.

Tak to znamená, že v -S jsou zahrnuty ty dva nezkrácené výrazy příkazů a tudíž když zadám jenom -S, tak se mi nemusí žádné soubory stahovat?

nekdouplnejiny

07.07.18 20:06

[?]

ne -S == --server-response protože jsou na stejném řádku (a bylo by to uvedeno že je to zkratka pro: ...)

--spider je samostatný argument (je jich tam hodně které jdou zapsat jen "--" stylem)

jann*

08.07.18 10:50

Díky. A ještě to wget --directory-prefix /cesta/ je nutné použít klasické / místo obráceného lomeno používaného pro cesty složek v OS?

jann*

08.07.18 11:25

Mám to dobře zapsaný?

wget --mirror --user-agent=Microsoft Internet Explorer --wait=5 --show-progress -S --accept=* --execute robots=off --directory-prefix=d:/slozka http://www.web.com/

,kde místo / je obrácené lomítko

nekdouplnejiny

08.07.18 13:27

[?]

S lomítky by problém být neměl, hlavně ve windows mi nikdy lomítka problém nedělala, příklady nastavení user agenta jsou třeba zde http://www.networkinghowtos.com/howto/change-the-user-agent-in-wget/ nic lepšího jsem nenašel, (asi bych okopíroval nějaké z té stránky) a pokud bude mít nějaký parametr mezery tak je lepší ho dát do "uvozovek"jako v těch příkladech co jsou v odkazu (jinak to bude brát jako samostatné argumenty) , a 5 sekundové čekání, to se načekáš jestli chceš stáhnout všecko :D radši bych použil --random-wait ale jak chceš

jann*

08.07.18 14:17

Tady posílám zkrácený výpis, který jsem zkusil na tento web, který jsem si vybral jako zkušební web.

Objevili se tam nějaký faily, je v něčem zásadní problém? Zkoukneš mi to prosím a poradíš.

Jo a + se mi nestáhli ty obrázky reklamy co jsou nahoře nad vláknem a pod vláknem (příspěvkem) v bílým obdelníku, v čem je problém, co je třeba donastavit?

zkrácený výpis

---------------------

D:slozka>wget --mirror --user-agent=Microsoft Internet Explorer --wait=5 --show-progress -S --accept=* --execute robots=off --directory-prefix=d:/scw poradte.cz/...
--2018-07-08 11:32:39-- http://internet/
Resolving internet (internet)... failed: Není znám žádný takový hostitel. .
wget: unable to resolve host address internet
--2018-07-08 11:32:47-- http://explorer/
Resolving explorer (explorer)... failed: Není znám žádný takový hostitel. .
wget: unable to resolve host address explorer
--2018-07-08 11:32:54-- poradte.cz/...
Resolving www.poradte.cz (www.poradte.cz)... 88.208.118.65
Connecting to www.poradte.cz (www.poradte.cz)|88.208.118.65|:443... connected.
http request sent, awaiting response...
http/1.1 200 OK
Date: Sun, 08 Jul 2018 09:32:55 GMT
Server: Apache
X-Powered-By: PHP/5.5.9-1ubuntu4.20
Expires: Sun, 08 Jul 2018 09:32:55 GMT
Vary: Accept-Encoding
Keep-Alive: timeout=15
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html
Length: unspecified [text/html]
Saving to: d:/scw/www.poradte.cz/pocitace-a-prislusenstvi/43968-linux-wget.html
www.poradte.cz/pocitace-a-prislusen [ <=> ] 60,45K 113KB/s in 0,5s
Last-modified header missing -- time-stamps turned off.
2018-07-08 11:32:55 (113 KB/s) - d:/scw/www.poradte.cz/pocitace-a-prislusenstvi/43968-linux-wget.html saved [61899]
--2018-07-08 11:33:00-- poradte.cz/...
Reusing existing connection to www.poradte.cz:443.
http request sent, awaiting response...
http/1.1 200 OK
Date: Sun, 08 Jul 2018 09:33:01 GMT
Server: Apache
Last-Modified: Sat, 11 Oct 2014 11:57:51 GMT
ETag: "13e-505245ffe0dc0"
Accept-Ranges: bytes
Content-Length: 318
Cache-Control: max-age=600
Expires: Sun, 08 Jul 2018 09:43:01 GMT
Keep-Alive: timeout=15
Connection: Keep-Alive
Content-Type: image/vnd.microsoft.icon
Length: 318 [image/vnd.microsoft.icon]
Saving to: d:/scw/www.poradte.cz/favicon.ico
www.poradte.cz/favicon.ico 100%[================================================================>] 318 --.-KB/s in 0,001s
2018-07-08 11:33:00 (340 KB/s) - d:/scw/www.poradte.cz/favicon.ico saved [318/318]
--2018-07-08 11:33:05-- poradte.cz/...
Reusing existing connection to www.poradte.cz:443.
http request sent, awaiting response...
http/1.1 200 OK
Date: Sun, 08 Jul 2018 09:33:06 GMT
Server: Apache
X-Powered-By: PHP/5.5.9-1ubuntu4.20
Expires: Sun, 15 Jul 2018 09:33:06 GMT
Vary: Accept-Encoding
Keep-Alive: timeout=15
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/css
Length: unspecified [text/css]
Saving to: d:/scw/www.poradte.cz/style_tisk.css
www.poradte.cz/style_tisk.css [ <=> ] 44,03K --.-KB/s in 0,01s
Last-modified header missing -- time-stamps turned off.
2018-07-08 11:33:05 (4,16 MB/s) - d:/scw/www.poradte.cz/style_tisk.css saved [45083]

nekdouplnejiny

08.07.18 15:19

[?]

Ty failedy jsou kvůli --user-agentovi protože je nesprávně zapsaný posílal jsem ti link odkud si musíš okopčit správné zadání user agenta , paramtery s mezerou musíš zapsat do uvozovek, jinak se všechno stáhlo? reklamy by měli jít také stáhnout

ale celkově všechno potrvá hodně dlouho protože těch souborů je brutálně moc

jann*

08.07.18 15:40

U mobilní verze v adresáři amp, nějaký reklami od googleadservice.com/... jsou, ale u normální verze tam se to zobrazí bez reklam, a mám tam tento soubor navíc 43968-linux-wget.html@datum , ten k něčemu slouží, protože tam mám i soubor jenom .html? Ještě jsem to nezkusil, jinak zde na www.poradte.cz jsem to nechal běžet jenom chvilinku, tak nevím jestli se všechno stáhne. A ještě ten paramter -pk je nutný ho zadat nebo je to projistotu lepší?

jann*

08.07.18 18:49

A další problém nestáhne to obrázek z adresy www.adresa.cz/Obrázek/obrazek1.jpg. Takhle to píše tu složku Obrázek v takovémhle přibližném formátu Obr%%%565%%%a , a nestáhne to a píše to nebyl nalezen (404 NOT FOUND) soubor obrazek1.jpg. Ale přitom, když to zadám s diakritikou do prohlížeče tak to ten obrázek najde. U samotného obrázku jako souboru to nevím jestli by stáhnul když by byl s diakrtikou.

Poradíš mi prosím jak to nastavit aby to šlo stahovat i z adresářů s diakritikou.

nekdouplnejiny

08.07.18 19:46

[?]

-p znamená že chcete stáhnou všechny obrázky k html souborům a -k že chcete převést internetové odkazy na lokální odkazy do složek jestli je tam musíš mít nebo je nepotřebuješ musíš vědět ty.

%%% ty procenta jsou převod diakritiky to fakt nevím jak se toho zbavit (možná nějaký script který by to převedl zpátky na diakritiku?, muselo by se pohledat)

a můžu se zeptat na co to potřebuješ to si doma plánuješ udělat zálohu půlky internetu nebo ti stačí jen pár stránek? protože přes prohlížeš by to mohlo jít stáhnout i rychleji

jann*

08.07.18 19:54

A ještě další věc ten natavit nějak aby mi průběžně wget ukládal průběh stahování do notepad.txt?

A jde nastavit příkazový řádek (cmd) ve Windows tak, aby se nedal zavřít obyčejním křížkem?

A jde také natavit, když omylem zavřu příkazový řádek, tak aby se program wget neukončil?

A také když to utnu ukončením cmd, tak aby se wget spustil tam kde jsem to utnul a odtud pokračoval dál?

jann*

08.07.18 19:59

Chci stáhnout různý blogy pro jistotu kdyby byly smazány. A přes prohlížeč nevím jak to stáhnout, mám MS Edge, Internet Explorer. Jestli víš jak na to, tak prosím poraď.

nekdouplnejiny

10.07.18 15:06

[?]

Sorry byl jsem v práci a pak neměl moc čas

Jestli toho není moc tak to stáhni přes prohlížeč (řek bych že to bude vypadat stejně) v Ms edge jsem vlastnost pro stáhnutí nenašel ale internet explorer ji má, stačí najít stránku dát klávesovou kombinaci ctrl+s zvolit v jakém formátu stáhnout (nejlepší je vyzkoušet všechny a pak porovnat který nejvíc vyhovuje) (Jinak pro stažení doporučuju Mozzilu firefox(líbilo se mi nejvíc))

Příkazový řádek nevím jestli jde nastavit aby nešel zavřít ale mohlo by to jít spustit na pozadí ale pokud takovou funkci nemá přímo wget vestavěnou tak nevím jak to ve windows udělat (v linuxu se na konec příkazu přidá "&")

Pokud je potřeba tak wget může všechny svoje výpisy ukládat do textového dokumentu, nejdřřív si nějaký vytvoř ve složce s wget a pak nakonec příkazu přidej >nazevDokumentu.txt

jann*

10.07.18 20:56

Teď jsem zkoušel jinou stránku a tam mi to prostě rekurzivní stahování nefunguje (mám ta parametr -m i -pk), stáhne to prostě jenom tu stránku kterou dám do toho příkazu, a neúplně, a zase problém s diakritikou. A když dám hlavní kořenovou stránku, kde je bílá stránka a dva odkazy na další podstránky, tak wget zahlásí něco ve smyslu, že nic nenašel pro stahování. Ani pdfka, která jsou na dalších podstránkách to taky nestáhne, ale když tam dám přímo tu podstránku, kde jsou pdfka tak ty stáhne, ale jinak ne a též stáhne jenom ty pdfka bez diakrtiky v názvu. Není ještě nějaký jiný linuxový nástroj lepší než wget pro toto?

nekdouplnejiny

11.07.18 22:10

[?]

o žádném jiném nástroji nevím, možná můžeš zkusit pohledatnebo stahovat přes pohlížeč

jann*

25.07.18 22:47

Díky. A to stahování přes prohlížeš přes ctrl+s umí i rekurzivní stahování nebo stahování webové stránky včetně na dále odkazované pdfka?

Skočit na otázku
Vložit novou otázku

[přidat komentář]

Přidat svou odpověď

Přihlásit se k odběru odpovědí z této otázky:

Neneseme odpovědnost za správnost informací a za škodu vzniklou jejich využitím. Jednotlivé odpovědi vyjadřují názory jejich autorů a nemusí se shodovat s názorem provozovatele poradny Poradte.cz.

Používáním poradny vyjadřujete souhlas s personifikovanou reklamou, která pomáhá financovat tento server, děkujeme.