WEBサイトを丸ごとダウンロード保存するソフト「HTTrack」
WEBデータをFTPでダウンロードするのと1件ずつ手作業でダウンロードするのとは全く違います。
WEBサイトの引っ越しの際FTP情報が無いと、大変な手間が掛かるのです。
オフライン保存ソフト「HTTrack」をうまく活用しながら再構築すると効率的です。
WEBサイトの手作業保存は大変
WEBサイトの引っ越しや管理を担当する場合に非常に厄介なのは、WEBデータがもらえないケースです。
データをダウンロードするためのFTP情報がもらえない場合ですね。
これまで何度か遭遇しており、その際は手作業でWEBサイトを丸ごと保存(再構築)してきました。
今でこそあまり見かけなくなりましたが、たまにそのような案件があります。
ページ構成の全容把握が必要
丸ごと保存しなければならない場合に毎回思うのは、そのWEBサイトのページ構成を把握するのが大変である事です。
全てのページを保存する際に漏れがあってはいけません。
サイトマップなどを参考にしてページ構成を把握しなければならないのです。
1ページずつ解析する必要がある
さらにはところどころcgiやphpのプログラムが使われている場合もあります。
この辺りはクライアントに聞いてもさっぱりな訳ですから、自分で解析していくしかない訳です。
ですので再構築作業は非常に手間が掛かり、通常の引っ越し費用とは全然金額が変わってきます。
クライアントの引っ越しの感覚は同じ
ところがクライアントには、どれだけ手間が掛かる作業なのかが伝わりにくい面があります。
向こうにしてみれば引っ越しする事に変わりがないためです。
ですのでFTP情報がない状態での引っ越しが、どれだけ大変な作業がを知ってもらう必要がありますね。
ソフトを使った丸ごとダウンロード
さらに無料ソフトを使って丸ごとダウンロードをする方法もご紹介します。
ソフト使用はあくまでオフライン保存が主旨であり、完璧に複製する訳ではありません。
先ほど出たcgiやphpの部分があっても無視して、出力データ状態のみを保存する訳です。
ただそれでも全て一括でダウンロードできるので、使わない手はありません。
WEBサイトの引っ越しにFTPは必須
WEBサイトはHTMLファイル・CSSファイル・画像ファイル・JSファイルなど様々なファイルで構成されています。
プレーンなHTML系のWEBサイトであれば、それら一つ一つが個別に格納されているのですね。
FTPでサーバーに接続すれば、それら全てファイルを一括でダウンロードしてくる事ができる訳です。
WEBサイトの引っ越しは、データをダウンロードして別サーバーにそのままアップロードする事が基本です。
WordpressなどのCMSシステムも同様
今はWordpressなどのCMSが主流ですが、基本は同じです。
接続情報さえあれば、システム構成ファイルやDBファイルを全てダウンロードする事ができます。
それを別のサーバーに全く同じ構成でアップロードすれば、Wordpressサイトも引っ越しできます。
※ローカル環境でWordpressデータを確認するためには、事前設定が必要になります。
再構築はHTMLサイト案件が多い
WordpressなどのCMSシステムで膨大な記事を書いている場合、そのページを1枚1枚保存するのはナンセンスです。
そもそもWordpressであればログイン情報がありますので、その様な力業をする必要がありませんよね。
丸ごと保存する案件(FTPが無い案件)は、HTMLサイトがほとんどです。
ただしHTMLサイトでも膨大なページ数があると、丸ごと保存はかなり大変な作業になります。
FTP情報が取得できないケース
この様にWEBサイトを引っ越しする際FTP情報は必須であり、これが無いとこれら全てのデータのダウンロードができません。
ただ困った事にクライアントの環境によっては、FTP情報が取得できないケースがあります。
WEBデータを取得できない主な理由は以下の2つですね。
・契約上WEBデータの持ち出し禁止
・FTP情報がわからない(業者と連絡が取れない)
契約上WEBデータが持ち出せない
これは現行の管理者との契約上の問題なので、致し方ないです。
表示しているWEBサイトの「所有権」は、クライアント側ではなく業者側にあるのですね。
その業者と契約を解除する際、今のWEBサイトをそのまま持ち出す事ができません。
あらかじめ契約書に明記されているにもかかわらず、解約時に初めてその事実を知るクライアントもいます。
先日もあった再構築作業
この間も通常HTMLサイト+Wordpressの混合サイトを再構築して引っ越ししました。
所有権が無かったので、WEBデータを譲り受ける事ができない訳です。
PCとスマホのソースが別個になっていたので、再構築にすごく手間が掛かりましたね。
業者と連絡が取れず、FTP情報がわからない
これはサーバーを契約している業者と連絡が取れなくなったり、トラブルで連絡をしたくないケースです。
業者と連絡が取れないと、FTP情報が不明なのでWEBサイトの更新やリニューアルができません。
別の業者を見つけてWEBサイトを丸ごと保存してもらい、現在のサーバーを解約するしかない訳です。
ドメイン管理に関して
契約上WEBデータは渡してもらえない場合でも、ドメインは譲ってもらえます。
それができないとさすがに意味がありませんからね。
ただ業者と連絡が取れないタイプの場合、その業者がドメイン管理もしていると大変深刻な状況です。
サーバーを引っ越しすると同時にドメイン名自体を変更しなければならないからです。
新しくWEBサイトを運営し始めたと割り切って、リスタートするしかありません。
FTPダウンロードと再構築は違う
FTP情報がない条件でWEBサイトデータを取得するためには、各構成要素をブラウザからダウンロードして来るしかありません。
FTPでダウンロードしてくるのと違い、構成ファイル群を個別に保存させる必要があります。
これを私は「再構築」と呼んでいます。
FTPの場合
例えば以下の様なシンプルな構成のWEBページがあったとしましょう。
HTMLソース×1
CSSファイル×2
JSファイル×1
画像ファイル×10
FTP情報を持っていればサーバーにアクセスできるので、上記ファイル群が全て最初から見えています。
それらを選択してPCへダウンロードして来るだけなので簡単です。
再構築は1ファイルずつ
それに対し再構築はそうはいきません。
HTMLソースをコピーしてペーストする
CSSコードを2つコピーしてペーストする
JSコードをコピーしてペーストする
画像ファイルの「名前を付けて保存」を10回繰り返す
これらを1つずつおこなう必要があるのです。
結果的には同じ事になるのですが、手作業なので膨大な時間が掛かるのです。
ページ数が少ない場合
ページが1ページ或いは数ページしかない場合は、それ程手間は掛かりません。
先ほど紹介しましたHTML、CSS、JSを全てコピーして何度か手元の空ファイルに貼り付ければ、すぐに複製できます。
画像ファイルも一つずつ「名前を付けて保存」する必要がありますが、何とかなるでしょう。
ページ数が多い場合
数ページならまだしも数十~数百あるWEBサイトの場合、この再構築作業は大変です。
非常に工数が増えて時間が掛かりますよね。
それだけ費用も膨らむ訳ですが、再構築だからと言ってクライアントもそんなに費用は出せないはずです。
FTPが無くても「引っ越し費用」程度の想定しかしていないからですね。
そこでこちらも、もっと効率的にWEBサイトを丸ごとダウンロードできる様にする必要があります。
ソフトを使って全ページを一括ダウンロード
そこで本記事では、フリーソフトを使って丸ごとダウンロードする方法をご紹介します。
ダウンロード後に多少加工は必要になりますが、全ページを一括でダウンロード保存して来れるのです。
今回は「HTTrack」というアプリケーションをご紹介いたします。
このソフトを使えば、再構築作業がぐっと楽になります。
HTTrackダウンロード
まずは下記ダウンロードページよりダウンロードします。
HTTrack
項目の2番目にある「httrack_x64-3.49.2.exe」をクリックするとダウンロードがはじまります。
仮に「安全にダウンロードできない」とガイダンスが出る場合は、そのすぐ下の「alternate site」のリンクを押しましょう。
無事にダウンロードできるはずです。
32bit版の方は「httrack-3.49.2.exe」をクリックして下さい。
HTTrackインストール
ダウンロードしたインストーラーファイルをクリックして、インストールをします。
インストールは他のソフトと変わりはありません。
インストールが終了したら「httrack」を起動します。
HTTrackの操作方法
日本語へ言語変更
最初の起動時は英語のはずですので、言語設定から「Japanese」を選択して一度ソフトを閉じましょう。
閉じたら再度開きます。
日本語で表示されたら「次へ」をクリックします。
WEBサイトの取り込み
新規プロジェクト名を入力し、基準パスにデータ保存先を選択して「次へ」をクリックします。
WEBアドレス欄に保存したいWEBサイトURLを入力して、「次へ」をクリックしましょう。
次に「完了」をクリックするとダウンロードが開始されます。
ダウンロードが完了すると「コピー(ミラー)は完了しました。」と表示されるので「完了」をクリックして終了です。
指定したデータの保存先に先ほど設定した「新規のプロジェクト名」フォルダがあり、中にWEBサイトデータ一式が保存されます。
サーバーと同じ構成で丸ごと保存
HTTrackで保存したファイルは、WEBサイトの構成と全く同じ状態で保存されます。
「新規のプロジェクト名」フォルダ→「ドメイン名」フォルダ
「新規のプロジェクト名」フォルダ内の「ドメイン名フォルダ」内に、実物データが入っています。
Wordpressサイトの場合はシステムファイルの構成ではなく、あくまでWEBページのツリー構成に沿ったものになります。
httpsのSSL化されたサイトでも、問題なくダウンロードされます。
何より画像ファイルが一発で全て保存されるのは大変助かりますね。
外部ソースの読込
WEBページの中にはCDNの様に、httpで始まる外部サイトのソースを利用しているケースがありますよね。
HTTrackでは外部サイトソースも保存され、フォルダが作られます。
「新規のプロジェクト名」フォルダ
プロジェクト名フォルダにはドメイン名フォルダ以外に様々なフォルダができていますよね。
これらが全て読み込んでいる外部サイト先に相当する訳です。
保存したページのHTMLソースでは、これらのフォルダを指定する事で外部とは断絶した形になっています。
これにより完全にオフラインでWEBサイトが見れる訳ですね。
HTTrackをWEBサイトの再構築に利用
再構築作業を大幅にサポート
もともとHTTrackはオフライン保存するために利用されるソフトです。
しかしこの相対パス部分を上手く一括変換すれば、引っ越し用データに使えますよね。
大幅な効率UP・工数削減につながるはずですので、ぜひ活用してみましょう。
../を一括変換で加工
ソースの中で外部ソースを読み込んでいる部分は以下の様になっています。
../外部ソースフォルダ名/ファイル名
つまり一つ上の区画にあるフォルダを相対パスで指定している訳ですね。
実際にこの保存ファイルを引っ越しデータとして使う場合、相対パス「../」のところを「http(s):」に一括変換すればよい事になります。
※外部ソース以外にも、画像srcで../を使っている場合がありますので、一括変換時は注意が必要です。
完璧な複製はもともと不可能
上手く加工をしていけば、あくまで「見た目」だけですが、WEBサイトの状態を維持できる事になります。
もともとFTP情報が無い以上、完璧なデータの複製は不可能な訳です。
HTTrackを使っても管理画面やcgi・phpなどのファイルコード自体まで複製できない訳ですからね。
あくまで「状態保存」が中心であり、できない事はできないと、クライアントには納得してもらわなければなりませんね。
過去に使っていたソフト「Webox」
今回はHTTrackを紹介しましたが、別に「Webox」というソフトもあります。
一時期よく使われていましたが今は使っていません。
使われなくなった一番の要因は、SSL化したWEBサイトを丸ごとダウンロードできない事です。
SSL化WEBサイトは丸ごとダウンロードできない
SSL化したサイトを指定すると「フィルタ設定を確認してください」というガイダンスが出ます。
これは「http:」にURLを変更しなさいと言う意味なのですね。
http:に変えればそのWEBページはダウンロードできますが、リンクでつながっているはずの他のページがダウンロードされません。
つまり複数ページを一気にダウンロードできない訳です。
ですので今回はHTTrackをご紹介しました。