View previous topic :: View next topic |
Author |
Message |
ZeLegolas Tux's lil' helper
Joined: 26 Apr 2005 Posts: 128
|
Posted: Sat Jul 21, 2007 12:52 pm Post subject: [Script] Website2Pdf |
|
|
Pourquoi faire d'un site web un PDF ?
Dans mon cas c'est tout simplement parce que j'ai pas nécessairement le temps de lire en ligne certaines documentations qui sont fournis seulement sous forme HMTL. En le mettant sous forme d'un PDF je peux le lire tranquillement pendant mes trajets.
Les outils
Vous avez besoin d'installer les outils suivants :
Code: | # emerge httrack htmldoc |
Le script
Voici le script :
Code: | #!/bin/bash
if [[ $# -eq 0 ]]
then
echo "Syntaxe : "
echo " ${0:2} [URL] [Nom du PDF] [options pour httrack]"
exit
fi
mkdir "$2"
cd "$2"
httrack --update "$1" $3
gawk '{ if ($0 ~ /.*\.htm.*/ && $0 !~ /.*index.htm.*/) print $0 }' hts-cache/new.lst | sed "s/\[\(.*\.htm.*\)\]/\1/" > Files.lst
cat Files.lst | xargs htmldoc --webpage --embedfonts -t pdf14 -f ../"$2.pdf"
|
Exemple d'utilisation :
Code: | ./Website2Pdf "http://www.gnu.org/software/libc/manual/html_node/index.html" "The GNU C Library" |
Vous allez obtenir "The GNU C Library.pdf" |
|
Back to top |
|
|
kopp Advocate
Joined: 09 Apr 2004 Posts: 2885 Location: Grenoble, France
|
Posted: Sat Jul 21, 2007 2:25 pm Post subject: |
|
|
Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?
Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ? |
|
Back to top |
|
|
ZeLegolas Tux's lil' helper
Joined: 26 Apr 2005 Posts: 128
|
Posted: Sat Jul 21, 2007 5:00 pm Post subject: |
|
|
kopp wrote: | Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?
Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ? |
Non on ne perd pas la navigation hyperlien. C'est d'ailleurs très pratique car quand je recherche quelque chose dans GNU C Library je cliques sur le sujet qui m'intéresse et je vais automatiquement sur la bonne page, et ainsi de suite jusqu'à celle qui m'intéresse. Il y a même un "Content". Avec KPDF sous Kde ca marche vraiment bien .
Et si tu veux seulement garder le html tu as le repertoire créé avec le même nom que celui de ton fichier PDF qui contient tous le html
Une petite remarque :
Ce script fonctionne bien avec des sites du type de la GNU C Library. Par contre avec des sites pleins de javascript (site de type Web 2.0) y a des grandes chances que ca donne pas grand chose. Dans ce cas la vaux mieux effectivement garder le répertoire (celui portant le même nom que le pdf) avec tous le html. Il faudra sans doute aussi affiner la selection des pages (voir [options pour httrack]) si l'on ne veux pas, par exemple, télécharger tous messages du forum du site. Pour plus d'info pour le filtrage lire la doc de httrack. |
|
Back to top |
|
|
kopp Advocate
Joined: 09 Apr 2004 Posts: 2885 Location: Grenoble, France
|
Posted: Mon Jul 23, 2007 12:38 pm Post subject: |
|
|
Ok, si tu gardes la navigation, ça a du sens. Et c'est alors effectivement plus pratique, vu qu'on n'a plus qu'un unique fichier |
|
Back to top |
|
|
SanKuKai Apprentice
Joined: 17 Feb 2006 Posts: 228 Location: Toulouse, France
|
Posted: Mon Jul 23, 2007 1:03 pm Post subject: |
|
|
Ah il est bien chouette ce petit script.
Moi qui me tappe plus de deux heures de transport en commun quotidiennement (mon dieu que j'aime Paris...), je saurai en faire bon usage.
Merci beaucoup. |
|
Back to top |
|
|
Temet Advocate
Joined: 14 Mar 2006 Posts: 2586 Location: 92
|
Posted: Mon Jul 23, 2007 9:49 pm Post subject: |
|
|
Ah ben il le fait mieux que Konqueror alors, vu qu'il garde la navigation (énorme ça).
Merci tout plein, si j'en ai besoin un jour (ça arrivera), je saurai ou le trouver |
|
Back to top |
|
|
ZeLegolas Tux's lil' helper
Joined: 26 Apr 2005 Posts: 128
|
Posted: Tue Jul 24, 2007 9:01 pm Post subject: |
|
|
Bonjour a vous,
Si vous etes interesse par une tablette eInk il y a deux fournisseurs principaux : Sony ou Amazon. Le pb c'est qu'ils ont tendance a vouloir faire des produits fermes avec DRM ou formats proprietaires.
J'en ai trouve un autre le Hanlin eReader qui semble interessant car il est base sur un noyau linux et supporte pas mal de formats. De mon cote je suis en train de me tater si je vais pas en commander un. Voici le lien : http://www.jinke.com.cn/Compagesql/English/embedpro/index.asp
Ils sont associe a un projet OpenSource : http://openinkpot.org/
Autres liens interessants :
- format open ePub : http://en.wikipedia.org/wiki/Epub
- Dans wikipedia : http://en.wikipedia.org/wiki/Hanlin_eReader
Si vous avez deja une tablette eInk regardez dans le site de Openink.org sur le materiel supporte. Vous pourrez peut etre installer la version opensource.
L'avantage de ce genre de materiel avec sa version opensource c'est de pouvoir lire des formats sans avoir a les convertir a un format propritaire qui generalement empeche de lire les fichiers dans ces formats sur un autre appareille de meme type ou sur un autre ordinateur (cas des DRM) que celui ayant servi a telecharger les documents sur la tablette eInk.
Last edited by ZeLegolas on Thu Mar 19, 2009 3:38 pm; edited 1 time in total |
|
Back to top |
|
|
SanKuKai Apprentice
Joined: 17 Feb 2006 Posts: 228 Location: Toulouse, France
|
Posted: Thu Jul 26, 2007 11:50 am Post subject: |
|
|
ZeLegolas wrote: |
Tu devrais te prendre un truc comme le Sony Reader pour lire tes pdf. J'ai un ami qui en a un et c'est pas mal , pas lourd, fatigue pas les yeux, bonne autonomie, on lit aussi bien qu'un livre. A mon avis ce genre de périphérique peut remplacer les livres. Faire attention à prendre des produits sans DRM et sans formats de fichiers propriétaires.
|
Ouaip, j'avais déjà entendu parler de ces petites bêtes, mais je ne m'étais pas penché dessus plus que ça.
Effectivement, ça me semble être un bon investissement particulièrement bien adapté à mes besoins.
Merci du tuyau. |
|
Back to top |
|
|
Enlight Advocate
Joined: 28 Oct 2004 Posts: 3519 Location: Alsace (France)
|
Posted: Mon Jul 30, 2007 5:46 pm Post subject: |
|
|
C'est bon ça!!!! |
|
Back to top |
|
|
kwenspc Advocate
Joined: 21 Sep 2003 Posts: 4954
|
Posted: Sun Aug 19, 2007 8:50 am Post subject: |
|
|
Sympa en effet
(hum faudrait juste rendre le script plus propre avec la gestion des options via getopt et gérer les erreurs aux commandes via $?) _________________ membre officieux du SAV Ati GEntoo |
|
Back to top |
|
|
|