WWWoffle als WWW proxy

>> Index <<

Zonder meer een aanrader is WWWoffle. Het gaat om een caching proxy voor HTTP, FTP en finger protocollen. Anders dan de HTTP proxy van uw ISP (bijv. Squid) is WWWoffle ook offline te gebruiken. En dat maakt hem ideaal voor gebruik op thuisnetwerken met een dial-up verbinding. Maar ook op een laptop die niet altijd aangesloten is op het internet kan deze offline ook werkende caching proxy u van groot nut zijn.

Het proxy principe werkt als volgt:

Internet provider

<---> WWW proxy <--->

WWW Clients van de proxy

WWWoffle haalt tijdens een dial-up verbinding de gevraagde gegevens bij uw ISP op (fetching).

WWWoffle presenteert de gegevens op de harde schijf aan alle WWW clients die de proxy op http://hostnaam:8080 aanspreken.

Met StarOffice, Netscape, Lynx, Emacs GNUs, maar ook Windows clients als IE (via een netwerk) kunt u off-line browsen.

De homepage van WWWoffle zit op: http://www.gedanken.demon.co.uk/wwwoffle/. Het is een open source programma. Er zijn versies voor Linux en Windows.

Bespreking

> Top <

WWWoffle is ideaal bij een niet permanente internetverbinding. Dus voor gebruikers die niet de hele dag online zijn: WWWoffle werd ontworpen voor dial-up verbindingen, maar werkt ook als off-line proxy voor een niet altijd op het internet aangesloten laptop.

Want als u offline bent, haalt WWWoffle de gewenste pagina's uit zijn cache op. En als die niet aanwezig is vraagt WWWOffle u of de pagina de volgende keer als u online bent wilt ophalen.

De WWWofflle offline proxy vult niet alleen uw slecht tot matig functionerende browser cache aan, maar fungeert tevens als caching proxy voor andere WWW clients (KFM, Lynx, StarOffice, Mozilla. IE e.d.). Alle browsers die de proxy lokaal of via het netwerk bereiken kunnen worden erdoor versneld. Hun caches kunt u minimaliseren. Want de capaciteit van WWWoffle (enige gigabytes zijn haalbaar) is vele malen groter dan die van alle browser caches bij elkaar (megabytes).

Met de WWWoffle proxy kunt u precies aangeven welke bestandstypen en URL's u wel of niet op uw netwerk wilt toelaten of voor offline gebruik wilt laten cachen. U kunt hierbij filteren op type bestanden, domeinen en veel meer. WWWoffle kan hierbij samenwerken met Privoxy/Junkbuster, maar ook zelfstandig fungeren als een filter voor banners en andere commerciële troep.

Recursief ophalen van bestanden

WWWOffle geeft u de mogelijkheid om de pagina's recursief op te halen. Dus niet alleen de opgevraagde pagina en zijn multimedia content, maar ook de verwijzingen van de op de pagina aanwezige hyperlinks en naar keuze tot op meerdere niveaus op dezelfde servermap, host of op meerdere servers. Maar denk goed na voordat u de krachtige fetch-optie gebruikt.

Want het recursief tot het tweede niveau op dezelfde server ophalen van een WIKI encyclopedie pagina genereert meestal duizenden fetch opdrachten. Als een gemiddelde WIKI pagina 20 hyperlinks naar HTML bestanden op de WIKI kent (ik heb het nog niet over de afbeeldingen), zal een fetch van de eerste orde minimaal 20.20 is 400 opdrachten genereren en een fetch van de 2 orde 20.20.20 is 8000 TODO opdrachten genereren in /var/spool/wwwoffle /outgoing. En met 8000 bestanden werken in een directory is niet iets dat ieder bestandssysteem goed aankan.

Daar komt nog bij dat WWWoffle de bestanden van ieder domein in de map /var/spool/wwwoffle/http/domeinnaam opslaat. Dus alle bestanden van de subdictories met in htttp://www.sjoerd-visser.demon.nl/map/bestandsnaam komen uiteindelijk in /var/spool/wwwoffle/http/www.sjoerd-visser.demon terecht. En dus komen ook de honderdduizenden artikelen van http://en.wikipedia.org/ in de map /var/spool/wwwoffle/http/en.wikipedia.org terecht. Maar geen bestandssysteem kan dit aan. Kortom: als u domeinen met vele duizenden bestanden offline wilt spiegelen, gebruik dan de fetch optie van WWWoffle om de bestanden in de een offline proxy voor WWWoffle op te slaan. Veel kandidaten zijn er dan niet. Ik gebruik de Java applicatie Smartcache voor dit soort werk.

Als WWW proxy kan WWWoffle een heel netwerk van dienst zijn. Dus een site die u onder Netscape bekeken hebt kunt u later onder Internet Explorer via het netwerk offline bekijken. De door u aangeklikte hyperlinks die nog niet in de cache staan haalt WWWoffle in de volgende online sessie op. Tijdens een internet sessie kunnen meerdere gebruikers van het netwerk tegelijkertijd surfen.

Let er echter wel op dat u op een lokaal intranet onder de Netscape Proxy Preferences (en andere browsers) No Proxy for: uw_eigen_domeinnaam (bij mij: thuis) aanvinkt, anders wordt het snelle intranet onnodig gecached. Bovendien zult u problemen ondervinden bij het configureren van WWWoffle op afstand.

De opties van de wwwoffle zijn:

sjoerd@zolder:~ > wwwoffle -h

WWWOFFLE - World Wide Web Offline Explorer - Version 2.5

(c) Andrew M. Bishop 1996,97,98,99 [ amb@gedanken.demon.co.uk ]
[http://www.gedanken.demon.co.uk/]

Usage: wwwoffle -h
wwwoffle -online | -autodial | -offline | -fetch
wwwoffle -config | -purge | -kill
wwwoffle [-o|-O] <url>
wwwoffle [-g[Sisfo]] [-F] [-(d|r|R)[<depth>]] <url> ...
wwwoffle [-g[Sisfo]] [-F] [-(d|r|R)[<depth>]] [<file>|-] ...
wwwoffle -post <url> | -put <url>

Any of these can also take: [-p <host>[:<port>] | -c <config-file>]
The environment variable WWWOFFLE_PROXY can be set instead of -p or -c options.

wwwoffle -h : Display this help.
wwwoffle -on[line] : Indicate to the server that the network is active.
(Proxy requests will be fetched from remote hosts.)
wwwoffle -auto[dial] : Indicate to the server that the network is automatic.
(Proxy requests will be fetched from remote hosts ONLY if they are not already cached.)
wwwoffle -off[line] : Indicate to the server that the network is inactive.
(Proxy requests will be fetched from cache or recorded.)
wwwoffle -fetch : Force the server to fetch the pages that are recorded.
wwwoffle -config : Force the server to re-read the configuration file.
wwwoffle -purge : Force the server to purge pages from the cache.
wwwoffle -kill : Force the server to exit cleanly.
wwwoffle <url> ... : Fetch the specified URLs.
wwwoffle <file> ... : Fetch the URLs that are links in the specified file.

-o : Fetch the URL and output it on the standard output.
-O : As above but include the HTTP header.

-g[Sisfo] : Fetch the items included in the specified URLs.
(S=stylesheets, i=images, f=frames, s=scripts, o=objects)
-F : Force the url to be refreshed even if already cached.
-(d|r|R)[<depth>] : Fetch pages linked to the URLs and their links, going no more than <depth> steps (default 1).
(-d => URLs in the same directory or sub-directory)
(-r => URLs on the same host)
(-R => URLs on any host)

wwwoffle -post <url> : Create a request using the POST method, the data is read from stdin and appended to the request. The user should
ensure that the data is correctly url-encoded.
wwwoffle -put <url> : Create a request using the PUT method, the data is read from stdin and appended to the request.

-p <host>[:<port>] : The host name and port number to talk to the demon on.
(Defaults to localhost for the server and 8081 for control port, 8080 for http proxy port).

-c <config-file> : The name of the configuration file with the hostname, port number and the password (if any).

WWWOFFLE_PROXY : An environment variable that can be set to either the name of the config file (absolute path) or the hostname
and port number (both proxy and control) for the proxy.
e.g. "/var/spool/wwwoffle/wwwoffle.conf", "localhost:8080:8081" or "localhost:8080" are valid.

Ook kunt u in het WWWOFFLE Interactive Refresh Form off- of online precies aangeven hoever WWWoffle moet gaan in het ophalen van informatie. U kunt zou met een klik op de knop (Fetch now) een complete site recursief inclusief de gelinkte bestanden op geaffilieerde servers ophalen. Probeer dit liever niet bij een enorme site als Toms Hardware Guide, maar het werkt prima voor het ophalen van HTML HOWTO's of zelfs delen van de WIKI encyclopedie. Gebruik dan wel filters om bijv. niet de gezipte bestanden recursief van een ftp server op te halen. Zie: DontGetRecursive in WWWoffle configureren. Houdt ook de groottte van /var/spool/wwwoffle/outgoing/ in de gaten. Voor u er erg in hebt worden duizenden bestanden opgehaald.

De WWW cache zit standaard in /var /spool/wwwoffle/http en is met zoekutilities (Htdig of via de prompt) op trefwoorden te doorzoeken.



WWWOFFLE - World Wide Web Offline Explorer


WWWOFFLE Interactive Refresh Form

You can use this form to refresh or fetch any URL, either a single one or by following links recursively.

Fetch

Fetch stylesheets in the pages
Fetch images in the pages
Fetch frames in the pages
Fetch scripts in the pages
Fetch objects in the pages
Force refresh even if already cached

Notes:

  1. The default protocol is http if none is specified.

  2. To get a directory listing using ftp make sure that the path ends with '/'.

  3. To finger user@remote.host you should enter the URL as finger://remote.host/user.

[View the list of requested pages]

WWWOFFLE - [Welcome Page|FAQ] - WWWOFFLE





> Top <
>> Index <<

Deze tekst mag niet worden gewijzigd, vermenigvuldigd of voor commerciële doeleinden gebruikt worden zonder toestemming van de auteur. © Sjoerd Visser (2000).