Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
[Script] Website2Pdf
View unanswered posts
View posts from last 24 hours

 
Reply to topic    Gentoo Forums Forum Index French
View previous topic :: View next topic  
Author Message
ZeLegolas
Tux's lil' helper
Tux's lil' helper


Joined: 26 Apr 2005
Posts: 128

PostPosted: Sat Jul 21, 2007 12:52 pm    Post subject: [Script] Website2Pdf Reply with quote

Pourquoi faire d'un site web un PDF ?

Dans mon cas c'est tout simplement parce que j'ai pas nécessairement le temps de lire en ligne certaines documentations qui sont fournis seulement sous forme HMTL. En le mettant sous forme d'un PDF je peux le lire tranquillement pendant mes trajets.

Les outils

Vous avez besoin d'installer les outils suivants :
Code:
# emerge httrack htmldoc


Le script

Voici le script :

Code:
#!/bin/bash

if [[ $# -eq 0 ]]
then
 echo "Syntaxe : "
 echo " ${0:2} [URL] [Nom du PDF] [options pour httrack]"
 exit
fi

mkdir "$2"
cd "$2"

httrack --update "$1" $3
gawk '{ if ($0 ~ /.*\.htm.*/ && $0 !~ /.*index.htm.*/) print $0 }' hts-cache/new.lst | sed "s/\[\(.*\.htm.*\)\]/\1/" > Files.lst
cat Files.lst | xargs htmldoc --webpage --embedfonts -t pdf14 -f ../"$2.pdf"


Exemple d'utilisation :
Code:
./Website2Pdf "http://www.gnu.org/software/libc/manual/html_node/index.html" "The GNU C Library"

Vous allez obtenir "The GNU C Library.pdf"
Back to top
View user's profile Send private message
kopp
Advocate
Advocate


Joined: 09 Apr 2004
Posts: 2885
Location: Grenoble, France

PostPosted: Sat Jul 21, 2007 2:25 pm    Post subject: Reply with quote

Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?
Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ?
Back to top
View user's profile Send private message
ZeLegolas
Tux's lil' helper
Tux's lil' helper


Joined: 26 Apr 2005
Posts: 128

PostPosted: Sat Jul 21, 2007 5:00 pm    Post subject: Reply with quote

kopp wrote:
Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?
Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ?


Non on ne perd pas la navigation hyperlien. C'est d'ailleurs très pratique car quand je recherche quelque chose dans GNU C Library je cliques sur le sujet qui m'intéresse et je vais automatiquement sur la bonne page, et ainsi de suite jusqu'à celle qui m'intéresse. Il y a même un "Content". Avec KPDF sous Kde ca marche vraiment bien :).

Et si tu veux seulement garder le html tu as le repertoire créé avec le même nom que celui de ton fichier PDF qui contient tous le html

Une petite remarque :
Ce script fonctionne bien avec des sites du type de la GNU C Library. Par contre avec des sites pleins de javascript (site de type Web 2.0) y a des grandes chances que ca donne pas grand chose. Dans ce cas la vaux mieux effectivement garder le répertoire (celui portant le même nom que le pdf) avec tous le html. Il faudra sans doute aussi affiner la selection des pages (voir [options pour httrack]) si l'on ne veux pas, par exemple, télécharger tous messages du forum du site. Pour plus d'info pour le filtrage lire la doc de httrack.
Back to top
View user's profile Send private message
kopp
Advocate
Advocate


Joined: 09 Apr 2004
Posts: 2885
Location: Grenoble, France

PostPosted: Mon Jul 23, 2007 12:38 pm    Post subject: Reply with quote

Ok, si tu gardes la navigation, ça a du sens. Et c'est alors effectivement plus pratique, vu qu'on n'a plus qu'un unique fichier :)
Back to top
View user's profile Send private message
SanKuKai
Apprentice
Apprentice


Joined: 17 Feb 2006
Posts: 228
Location: Toulouse, France

PostPosted: Mon Jul 23, 2007 1:03 pm    Post subject: Reply with quote

Ah il est bien chouette ce petit script. :)
Moi qui me tappe plus de deux heures de transport en commun quotidiennement (mon dieu que j'aime Paris...), je saurai en faire bon usage. :wink:

Merci beaucoup.
Back to top
View user's profile Send private message
Temet
Advocate
Advocate


Joined: 14 Mar 2006
Posts: 2586
Location: 92

PostPosted: Mon Jul 23, 2007 9:49 pm    Post subject: Reply with quote

Ah ben il le fait mieux que Konqueror alors, vu qu'il garde la navigation (énorme ça).
Merci tout plein, si j'en ai besoin un jour (ça arrivera), je saurai ou le trouver ;)
Back to top
View user's profile Send private message
ZeLegolas
Tux's lil' helper
Tux's lil' helper


Joined: 26 Apr 2005
Posts: 128

PostPosted: Tue Jul 24, 2007 9:01 pm    Post subject: Reply with quote

Bonjour a vous,

Si vous etes interesse par une tablette eInk il y a deux fournisseurs principaux : Sony ou Amazon. Le pb c'est qu'ils ont tendance a vouloir faire des produits fermes avec DRM ou formats proprietaires.

J'en ai trouve un autre le Hanlin eReader qui semble interessant car il est base sur un noyau linux et supporte pas mal de formats. De mon cote je suis en train de me tater si je vais pas en commander un. Voici le lien : http://www.jinke.com.cn/Compagesql/English/embedpro/index.asp
Ils sont associe a un projet OpenSource : http://openinkpot.org/
Autres liens interessants :
- format open ePub : http://en.wikipedia.org/wiki/Epub
- Dans wikipedia : http://en.wikipedia.org/wiki/Hanlin_eReader

Si vous avez deja une tablette eInk regardez dans le site de Openink.org sur le materiel supporte. Vous pourrez peut etre installer la version opensource.

L'avantage de ce genre de materiel avec sa version opensource c'est de pouvoir lire des formats sans avoir a les convertir a un format propritaire qui generalement empeche de lire les fichiers dans ces formats sur un autre appareille de meme type ou sur un autre ordinateur (cas des DRM) que celui ayant servi a telecharger les documents sur la tablette eInk.


Last edited by ZeLegolas on Thu Mar 19, 2009 3:38 pm; edited 1 time in total
Back to top
View user's profile Send private message
SanKuKai
Apprentice
Apprentice


Joined: 17 Feb 2006
Posts: 228
Location: Toulouse, France

PostPosted: Thu Jul 26, 2007 11:50 am    Post subject: Reply with quote

ZeLegolas wrote:

Tu devrais te prendre un truc comme le Sony Reader pour lire tes pdf. J'ai un ami qui en a un et c'est pas mal :), pas lourd, fatigue pas les yeux, bonne autonomie, on lit aussi bien qu'un livre. A mon avis ce genre de périphérique peut remplacer les livres. Faire attention à prendre des produits sans DRM et sans formats de fichiers propriétaires.


Ouaip, j'avais déjà entendu parler de ces petites bêtes, mais je ne m'étais pas penché dessus plus que ça.
Effectivement, ça me semble être un bon investissement particulièrement bien adapté à mes besoins. :)
Merci du tuyau.
Back to top
View user's profile Send private message
Enlight
Advocate
Advocate


Joined: 28 Oct 2004
Posts: 3519
Location: Alsace (France)

PostPosted: Mon Jul 30, 2007 5:46 pm    Post subject: Reply with quote

C'est bon ça!!!!
Back to top
View user's profile Send private message
kwenspc
Advocate
Advocate


Joined: 21 Sep 2003
Posts: 4954

PostPosted: Sun Aug 19, 2007 8:50 am    Post subject: Reply with quote

Sympa en effet :D
(hum faudrait juste rendre le script plus propre avec la gestion des options via getopt et gérer les erreurs aux commandes via $?)
_________________
membre officieux du SAV Ati GEntoo
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index French All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum