※購入先、ダウンロードへのリンクにはアフィリエイトタグが含まれており、それらの購入や会員の成約、ダウンロードなどからの収益化を行う場合があります。

DownThemAllの使い方|一括DLの基本設定とフィルタ活用

毎回コツコツと画像やPDFを保存していませんか?
DownThemAllなら、必要なファイルだけを一気に収集し、わかりやすい名前で自動整理まで。この記事では、最初に整えるべき基本設定から、狙った獲物だけを刈り取るフィルタ術(ワイルドカード/正規表現)まで、迷わず再現できる手順で解説します。作業時間を短縮して、やるべき仕事に集中しましょう。

※本コンテンツは「記事制作ポリシー」に基づき、正確かつ信頼性の高い情報提供を心がけております。万が一、内容に誤りや誤解を招く表現がございましたら、お手数ですが「お問い合わせ」よりご一報ください。速やかに確認・修正いたします。

この記事のまとめ
  • 抽出 → 種類 → ワイルドカード → 正規表現 → 除外の順で精度を高める

  • 命名テンプレで衝突を防ぎ、後から探せる状態に

  • 並列・リトライ・タイムアウトは控えめに始めて最適化
    これだけで、DownThemAllは高速かつ安定した回収ツールになります。次は、あなたのページURLに合わせてフィルタを微調整しましょう。

DownThemAllの使い方初期セットアップ

ここを整えると、以降の運用が激的に安定します。

保存先フォルダ

  • 推奨:~/Downloads/DTA/{YYYY}/{MM}/{site}

    • {YYYY}{MM}は年・月、{site}はドメイン名やプロジェクト名。

    • 理由:同名ファイルの衝突回避後からの検索性が段違い。

同時ダウンロード数(並列スロット)

  • スタート値:3〜6

  • 回線が太く、相手サーバーも強い → 徐々に上げる

  • エラーが増える/429(Too Many Requests) → 2〜3まで下げる

  • 補足:ブラウザやDTAのバージョンで「全体の並列数」と「1ホストあたりの上限」が別にある場合、1ホスト上限を低め

リトライ/タイムアウト

  • タイムアウト:30〜60秒

  • リトライ:2〜3回(サーバー都合の一時エラーを吸収)


命名テンプレートの作り方

DTA側で使えるプレースホルダはバージョンやUI表記が異なることがあります。ここでは概念を示し、実機のUIに合わせて置き換えてください。

基本形

  • 推奨:{seq2}_{basename}.{ext}

    • seq2:2桁の連番(01, 02, 03…)

    • basename:元ファイル名(拡張子除く)

    • ext:拡張子

衝突しがちな環境向け

  • {YYYY}{MM}{DD}_{HHmmss}_{seq3}_{basename}.{ext}

    • 例:20251109_213045_007_hero-image.jpg

    • 日付+時刻+3桁連番でほぼ衝突ゼロ

意味を残したいとき

  • [{site}]_{category}_{seq2}.{ext}

    • 例:[example.com]_press_01.pdf

    • どこから取った何かがファイル名だけで分かる

置換(NG文字対応)

  • OSで使えない記号(例:/ \ : * ? " < > |)は自動置換をON

  • クエリ付きファイル名で汚れる場合:?以降を削除する置換ルールを設定


フィルタ設計の原則(段階的に絞る)

  1. 種類フィルタ(拡張子で大枠):画像/書類/アーカイブなど

  2. ワイルドカード(簡易パターン):*thumb*除外、*/uploads/*限定 など

  3. 正規表現(精密):解像度サフィックスや日付パスなど

  4. 除外(ノイズ除去):サムネ・アイコン・CDNパラメータ など

コツ:除外を入れすぎると「欲しいものまで消える」ので、まずは緩く→必要に応じて厳密化。


種類フィルタ

素早く対象を半分まで落とす“第一関門”。

画像

*.png, *.jpg, *.jpeg, *.webp, *.gif

書類

*.pdf, *.docx, *.pptx, *.xlsx

アーカイブ

*.zip, *.7z, *.rar, *.tar.gz

開発/データ

*.csv, *.json, *.xml, *.svg

ワイルドカード例

  • ディレクトリ限定:*/uploads/*, */assets/images/*

  • 年度を含む:*2025*

  • サムネ除外:*thumb*, *small*, *mini*, *preview*

  • アイコン除外:*sprite*, *icon*, *favicon*

  • 解像度付き除外:*-150x150*, *-\d+x\d+*

  • CDNクエリ除外:*?size=*, *?width=*, *?format=*

まず対象に含めるパターンを作り、その後で除外を足す順序が安全。


正規表現クックブック

UIの表記(/pattern/か、単純入力か)は実機に合わせてください。大文字小文字はiフラグで調整。

ギャラリー配下のJPG/JPEGだけ

.*/gallery/.*\.(jpe?g)$

YYYY-MM-DDの日付パス内のPDF

.*/(20\d{2})-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])/.+\.pdf$

フルサイズのみ(-orig, -full, original を含む)

.*(orig(inal)?|full)\.(png|jpe?g|webp)$

除外併用

.*(thumb|small|preview|-\d+x\d+)\.

数値IDつきAPI配下のJSON

.*/api/.*/\d+/.+\.json$

言語別フォルダの英語版だけ(/en/)

.*/en/.+\.(pdf|jpe?g|png|webp)$

末尾がバージョン付き(_v2, -v10)

.*[-_]?v\d+\.(pdf|zip|jpe?g|png)$

クエリを切り捨てた拡張子判定(?以降があるURL)

.+\.(pdf|zip|png|jpe?g)(\?.*)?$

サイズ表記入りを“原寸っぽい”命名だけに寄せる

^(?!.*(-\d{2,4}x\d{2,4}|@2x|@3x|thumb|small|mini)).+\.(png|jpe?g|webp)$

実務レシピ集

記事中の図版だけ取得

  • 種類:画像

  • 含む:*/uploads/*

  • 除外:*thumb*, *sprite*, *\d+x\d+*

  • 命名:{seq2}_{basename}.{ext}

ダウンロード資料(PDF)だけ

  • 種類:*.pdf

  • 含む:*/docs/*|*/whitepaper/*

  • 除外:*draft*, *old*, *sample*

  • 命名:{YYYY}{MM}{DD}_{seq2}_{basename}.pdf

ギャラリーのフル解像度のみ

  • 種類:画像

  • 正規表現(含む):.*(full|orig(inal)?)\.(png|jpe?g|webp)$

  • 除外:.*(thumb|small|preview|-\d+x\d+)\.

  • 命名:{site}_gallery_{seq3}.{ext}

製品画像(色/角度バリエーションは拾う、アイコンは除外)

  • 種類:画像

  • 含む:*/product/*

  • 除外:*icon*, *sprite*, *placeholder*

  • 命名:{category}_{basename}.{ext}

研究データ(CSVとPDF報告書)

  • 種類:*.csv, *.pdf

  • 含む:*/results/*|*/papers/*

  • 除外:*supplementary*(不要なら)

  • 命名:{YYYY}-{MM}_{seq2}_{basename}.{ext}


操作フロー

  1. 対象ページを開く(必要ならページ末尾までスクロールして遅延読み込みを終わらせる)

  2. DTA起動 → 「このページを解析」

  3. 一覧タブで「リンク」「メディア」を切替

  4. 種類フィルタで対象拡張子だけ残す

  5. ワイルドカード/正規表現/除外を順に適用

  6. 件数とプレビューで想定どおりか確認(ズレたら一段戻る)

  7. 命名テンプレを設定

  8. 開始 → 進行状況はキュー画面で監視(失敗は右クリックで再試行)

JS生成リンク・CSS背景画像は拾えないことがあります。必要なら開発者ツールで直URLを取得して貼り付け。


品質・速度・マナー

  • 段階的並列:3→4→6…と上げ、エラーが出たら即戻す

  • ホスト上限:同一ドメインへの過負荷を防止(1〜2が安全)

  • 待機(ディレイ):短い間隔(例:100〜300ms)を入れると429/403が減ることも

  • ログ活用:失敗URL・HTTPコード別に原因切り分け(認証・権限・存在しない等)

  • 法と規約:著作権・利用規約・robots等を順守。商用/再配布の可否は必ず確認。


トラブルシューティング詳解

一覧に出てこない

  • ページの完全読み込み(スクロールで画像を出す)→再解析

  • 無限スクロール:ページャのJSON/API側を直接開く方法も検討

  • CSS背景background-imageは対象外→開発者ツールでURL抽出

403/429/要求がブロックされる

  • 並列数を下げ、1ホスト上限も下げる

  • 待機時間を入れる

  • ログイン必須/Referer必須の領域はブラウザで認証済み状態で実行

名前が化ける/長すぎる

  • OS禁止文字の置換をON

  • クエリ切り捨て

  • 32/64/255文字制限のOS対策で接頭辞を短くする

途中で止まる/失敗が多い

  • タイムアウト→60〜90秒へ延長

  • リトライ→3回へ

  • ネットワークの一時切断→再開機能を活用


FAQ

Q. サブページまで自動で辿れますか?
A. 基本は表示中のページ範囲。多階層の全クロールは対象外なことが多いです。サイトマップや一覧ページを作る/別ツール併用が現実的。

Q. 連番の順序は何で決まる?
A. 一覧の並び順(URL・検出順・ユーザーソート)に依存。開始前に並べ替えるのがコツ。

Q. 大量DLでBANされない?
A. 保証はできません。並列・間隔・時間帯の配慮と、サイトの利用規約順守が前提です。

Q. 画像がCDNでサイズ分岐している場合のベストは?
A. 除外にクエリ名(例:*?width=*)やサイズ語を入れ、“原寸”と思われるパターンだけ含む正規表現を重ねます。