毎回コツコツと画像やPDFを保存していませんか?
DownThemAllなら、必要なファイルだけを一気に収集し、わかりやすい名前で自動整理まで。この記事では、最初に整えるべき基本設定から、狙った獲物だけを刈り取るフィルタ術(ワイルドカード/正規表現)まで、迷わず再現できる手順で解説します。作業時間を短縮して、やるべき仕事に集中しましょう。
※本コンテンツは「記事制作ポリシー」に基づき、正確かつ信頼性の高い情報提供を心がけております。万が一、内容に誤りや誤解を招く表現がございましたら、お手数ですが「お問い合わせ」よりご一報ください。速やかに確認・修正いたします。
-
抽出 → 種類 → ワイルドカード → 正規表現 → 除外の順で精度を高める
-
命名テンプレで衝突を防ぎ、後から探せる状態に
-
並列・リトライ・タイムアウトは控えめに始めて最適化
これだけで、DownThemAllは高速かつ安定した回収ツールになります。次は、あなたのページURLに合わせてフィルタを微調整しましょう。
DownThemAllの使い方初期セットアップ
ここを整えると、以降の運用が激的に安定します。
保存先フォルダ
-
推奨:
~/Downloads/DTA/{YYYY}/{MM}/{site}-
{YYYY}と{MM}は年・月、{site}はドメイン名やプロジェクト名。 -
理由:同名ファイルの衝突回避と後からの検索性が段違い。
-
同時ダウンロード数(並列スロット)
-
スタート値:3〜6
-
回線が太く、相手サーバーも強い → 徐々に上げる
-
エラーが増える/429(Too Many Requests) → 2〜3まで下げる
-
補足:ブラウザやDTAのバージョンで「全体の並列数」と「1ホストあたりの上限」が別にある場合、1ホスト上限を低めに
リトライ/タイムアウト
-
タイムアウト:30〜60秒
-
リトライ:2〜3回(サーバー都合の一時エラーを吸収)
命名テンプレートの作り方
DTA側で使えるプレースホルダはバージョンやUI表記が異なることがあります。ここでは概念と例を示し、実機のUIに合わせて置き換えてください。
基本形
-
推奨:
{seq2}_{basename}.{ext}-
seq2:2桁の連番(01, 02, 03…) -
basename:元ファイル名(拡張子除く) -
ext:拡張子
-
衝突しがちな環境向け
-
{YYYY}{MM}{DD}_{HHmmss}_{seq3}_{basename}.{ext}-
例:
20251109_213045_007_hero-image.jpg -
日付+時刻+3桁連番でほぼ衝突ゼロ
-
意味を残したいとき
-
[{site}]_{category}_{seq2}.{ext}-
例:
[example.com]_press_01.pdf -
どこから取った何かがファイル名だけで分かる
-
置換(NG文字対応)
-
OSで使えない記号(例:
/ \ : * ? " < > |)は自動置換をON -
クエリ付きファイル名で汚れる場合:
?以降を削除する置換ルールを設定
フィルタ設計の原則(段階的に絞る)
-
種類フィルタ(拡張子で大枠):画像/書類/アーカイブなど
-
ワイルドカード(簡易パターン):
*thumb*除外、*/uploads/*限定 など -
正規表現(精密):解像度サフィックスや日付パスなど
-
除外(ノイズ除去):サムネ・アイコン・CDNパラメータ など
コツ:除外を入れすぎると「欲しいものまで消える」ので、まずは緩く→必要に応じて厳密化。
種類フィルタ
素早く対象を半分まで落とす“第一関門”。
画像
書類
アーカイブ
開発/データ
ワイルドカード例
-
ディレクトリ限定:
*/uploads/*,*/assets/images/* -
年度を含む:
*2025* -
サムネ除外:
*thumb*,*small*,*mini*,*preview* -
アイコン除外:
*sprite*,*icon*,*favicon* -
解像度付き除外:
*-150x150*,*-\d+x\d+* -
CDNクエリ除外:
*?size=*,*?width=*,*?format=*
まず対象に含めるパターンを作り、その後で除外を足す順序が安全。
正規表現クックブック
UIの表記(/pattern/か、単純入力か)は実機に合わせてください。大文字小文字はiフラグで調整。
ギャラリー配下のJPG/JPEGだけ
YYYY-MM-DDの日付パス内のPDF
フルサイズのみ(-orig, -full, original を含む)
除外併用
数値IDつきAPI配下のJSON
言語別フォルダの英語版だけ(/en/)
末尾がバージョン付き(_v2, -v10)
クエリを切り捨てた拡張子判定(?以降があるURL)
サイズ表記入りを“原寸っぽい”命名だけに寄せる
実務レシピ集
記事中の図版だけ取得
-
種類:画像
-
含む:
*/uploads/* -
除外:
*thumb*,*sprite*,*\d+x\d+* -
命名:
{seq2}_{basename}.{ext}
ダウンロード資料(PDF)だけ
-
種類:
*.pdf -
含む:
*/docs/*|*/whitepaper/* -
除外:
*draft*,*old*,*sample* -
命名:
{YYYY}{MM}{DD}_{seq2}_{basename}.pdf
ギャラリーのフル解像度のみ
-
種類:画像
-
正規表現(含む):
.*(full|orig(inal)?)\.(png|jpe?g|webp)$ -
除外:
.*(thumb|small|preview|-\d+x\d+)\. -
命名:
{site}_gallery_{seq3}.{ext}
製品画像(色/角度バリエーションは拾う、アイコンは除外)
-
種類:画像
-
含む:
*/product/* -
除外:
*icon*,*sprite*,*placeholder* -
命名:
{category}_{basename}.{ext}
研究データ(CSVとPDF報告書)
-
種類:
*.csv, *.pdf -
含む:
*/results/*|*/papers/* -
除外:
*supplementary*(不要なら) -
命名:
{YYYY}-{MM}_{seq2}_{basename}.{ext}
操作フロー
-
対象ページを開く(必要ならページ末尾までスクロールして遅延読み込みを終わらせる)
-
DTA起動 → 「このページを解析」
-
一覧タブで「リンク」「メディア」を切替
-
種類フィルタで対象拡張子だけ残す
-
ワイルドカード/正規表現/除外を順に適用
-
件数とプレビューで想定どおりか確認(ズレたら一段戻る)
-
命名テンプレを設定
-
開始 → 進行状況はキュー画面で監視(失敗は右クリックで再試行)
JS生成リンク・CSS背景画像は拾えないことがあります。必要なら開発者ツールで直URLを取得して貼り付け。
品質・速度・マナー
-
段階的並列:3→4→6…と上げ、エラーが出たら即戻す
-
ホスト上限:同一ドメインへの過負荷を防止(1〜2が安全)
-
待機(ディレイ):短い間隔(例:100〜300ms)を入れると429/403が減ることも
-
ログ活用:失敗URL・HTTPコード別に原因切り分け(認証・権限・存在しない等)
-
法と規約:著作権・利用規約・robots等を順守。商用/再配布の可否は必ず確認。
トラブルシューティング詳解
一覧に出てこない
-
ページの完全読み込み(スクロールで画像を出す)→再解析
-
無限スクロール:ページャのJSON/API側を直接開く方法も検討
-
CSS背景:
background-imageは対象外→開発者ツールでURL抽出
403/429/要求がブロックされる
-
並列数を下げ、1ホスト上限も下げる
-
待機時間を入れる
-
ログイン必須/Referer必須の領域はブラウザで認証済み状態で実行
名前が化ける/長すぎる
-
OS禁止文字の置換をON
-
クエリ切り捨て
-
32/64/255文字制限のOS対策で接頭辞を短くする
途中で止まる/失敗が多い
-
タイムアウト→60〜90秒へ延長
-
リトライ→3回へ
-
ネットワークの一時切断→再開機能を活用
FAQ
Q. サブページまで自動で辿れますか?
A. 基本は表示中のページ範囲。多階層の全クロールは対象外なことが多いです。サイトマップや一覧ページを作る/別ツール併用が現実的。
Q. 連番の順序は何で決まる?
A. 一覧の並び順(URL・検出順・ユーザーソート)に依存。開始前に並べ替えるのがコツ。
Q. 大量DLでBANされない?
A. 保証はできません。並列・間隔・時間帯の配慮と、サイトの利用規約順守が前提です。
Q. 画像がCDNでサイズ分岐している場合のベストは?
A. 除外にクエリ名(例:*?width=*)やサイズ語を入れ、“原寸”と思われるパターンだけ含む正規表現を重ねます。