DownThemAllの使い方｜一括DLの基本設定とフィルタ活用│はりぼう記

毎回コツコツと画像やPDFを保存していませんか？
DownThemAllなら、必要なファイルだけを一気に収集し、わかりやすい名前で自動整理まで。この記事では、最初に整えるべき基本設定から、狙った獲物だけを刈り取るフィルタ術（ワイルドカード／正規表現）まで、迷わず再現できる手順で解説します。作業時間を短縮して、やるべき仕事に集中しましょう。

※本コンテンツは「記事制作ポリシー」に基づき、正確かつ信頼性の高い情報提供を心がけております。万が一、内容に誤りや誤解を招く表現がございましたら、お手数ですが「お問い合わせ」よりご一報ください。速やかに確認・修正いたします。

この記事のまとめ

抽出 → 種類 → ワイルドカード → 正規表現 → 除外の順で精度を高める
命名テンプレで衝突を防ぎ、後から探せる状態に
並列・リトライ・タイムアウトは控えめに始めて最適化
これだけで、DownThemAllは高速かつ安定した回収ツールになります。次は、あなたのページURLに合わせてフィルタを微調整しましょう。

1 DownThemAllの使い方初期セットアップ
2 命名テンプレートの作り方
3 フィルタ設計の原則（段階的に絞る）
4 種類フィルタ
5 ワイルドカード例
6 正規表現クックブック
7 実務レシピ集
8 操作フロー
9 品質・速度・マナー
10 トラブルシューティング詳解
11 FAQ

DownThemAllの使い方初期セットアップ

ここを整えると、以降の運用が激的に安定します。

保存先フォルダ

推奨：~/Downloads/DTA/{YYYY}/{MM}/{site}
- {YYYY}と{MM}は年・月、{site}はドメイン名やプロジェクト名。
- 理由：同名ファイルの衝突回避と後からの検索性が段違い。

同時ダウンロード数（並列スロット）

スタート値：3〜6
回線が太く、相手サーバーも強い → 徐々に上げる
エラーが増える/429(Too Many Requests) → 2〜3まで下げる
補足：ブラウザやDTAのバージョンで「全体の並列数」と「1ホストあたりの上限」が別にある場合、1ホスト上限を低めに

リトライ/タイムアウト

タイムアウト：30〜60秒
リトライ：2〜3回（サーバー都合の一時エラーを吸収）

命名テンプレートの作り方

DTA側で使えるプレースホルダはバージョンやUI表記が異なることがあります。ここでは概念と例を示し、実機のUIに合わせて置き換えてください。

基本形

推奨：{seq2}_{basename}.{ext}
- seq2：2桁の連番（01, 02, 03…）
- basename：元ファイル名（拡張子除く）
- ext：拡張子

衝突しがちな環境向け

{YYYY}{MM}{DD}_{HHmmss}_{seq3}_{basename}.{ext}
- 例：20251109_213045_007_hero-image.jpg
- 日付＋時刻＋3桁連番でほぼ衝突ゼロ

意味を残したいとき

[{site}]_{category}_{seq2}.{ext}
- 例：[example.com]_press_01.pdf
- どこから取った何かがファイル名だけで分かる

置換（NG文字対応）

OSで使えない記号（例：/ \ : * ? " < > |）は自動置換をON
クエリ付きファイル名で汚れる場合：?以降を削除する置換ルールを設定

フィルタ設計の原則（段階的に絞る）

種類フィルタ（拡張子で大枠）：画像/書類/アーカイブなど
ワイルドカード（簡易パターン）：*thumb*除外、*/uploads/*限定など
正規表現（精密）：解像度サフィックスや日付パスなど
除外（ノイズ除去）：サムネ・アイコン・CDNパラメータなど

コツ：除外を入れすぎると「欲しいものまで消える」ので、まずは緩く→必要に応じて厳密化。

種類フィルタ

素早く対象を半分まで落とす“第一関門”。

画像

書類

アーカイブ

開発/データ

ワイルドカード例

ディレクトリ限定：*/uploads/*, */assets/images/*
年度を含む：*2025*
サムネ除外：*thumb*, *small*, *mini*, *preview*
アイコン除外：*sprite*, *icon*, *favicon*
解像度付き除外：*-150x150*, *-\d+x\d+*
CDNクエリ除外：*?size=*, *?width=*, *?format=*

まず対象に含めるパターンを作り、その後で除外を足す順序が安全。

正規表現クックブック

UIの表記（/pattern/か、単純入力か）は実機に合わせてください。大文字小文字はiフラグで調整。

ギャラリー配下のJPG/JPEGだけ

`YYYY-MM-DD`の日付パス内のPDF

フルサイズのみ（-orig, -full, original を含む）

除外併用

数値IDつきAPI配下のJSON

言語別フォルダの英語版だけ（/en/）

末尾がバージョン付き（_v2, -v10）

クエリを切り捨てた拡張子判定（?以降があるURL）

サイズ表記入りを“原寸っぽい”命名だけに寄せる

実務レシピ集

記事中の図版だけ取得

種類：画像
含む：*/uploads/*
除外：*thumb*, *sprite*, *\d+x\d+*
命名：{seq2}_{basename}.{ext}

ダウンロード資料（PDF）だけ

種類：*.pdf
含む：*/docs/*|*/whitepaper/*
除外：*draft*, *old*, *sample*
命名：{YYYY}{MM}{DD}_{seq2}_{basename}.pdf

ギャラリーのフル解像度のみ

種類：画像
正規表現（含む）：.*(full|orig(inal)?)\.(png|jpe?g|webp)$
除外：.*(thumb|small|preview|-\d+x\d+)\.
命名：{site}_gallery_{seq3}.{ext}

製品画像（色/角度バリエーションは拾う、アイコンは除外）

種類：画像
含む：*/product/*
除外：*icon*, *sprite*, *placeholder*
命名：{category}_{basename}.{ext}

研究データ（CSVとPDF報告書）

種類：*.csv, *.pdf
含む：*/results/*|*/papers/*
除外：*supplementary*（不要なら）
命名：{YYYY}-{MM}_{seq2}_{basename}.{ext}

操作フロー

対象ページを開く（必要ならページ末尾までスクロールして遅延読み込みを終わらせる）
DTA起動 → 「このページを解析」
一覧タブで「リンク」「メディア」を切替
種類フィルタで対象拡張子だけ残す
ワイルドカード/正規表現/除外を順に適用
件数とプレビューで想定どおりか確認（ズレたら一段戻る）
命名テンプレを設定
開始 → 進行状況はキュー画面で監視（失敗は右クリックで再試行）

JS生成リンク・CSS背景画像は拾えないことがあります。必要なら開発者ツールで直URLを取得して貼り付け。

品質・速度・マナー

段階的並列：3→4→6…と上げ、エラーが出たら即戻す
ホスト上限：同一ドメインへの過負荷を防止（1〜2が安全）
待機（ディレイ）：短い間隔（例：100〜300ms）を入れると429/403が減ることも
ログ活用：失敗URL・HTTPコード別に原因切り分け（認証・権限・存在しない等）
法と規約：著作権・利用規約・robots等を順守。商用/再配布の可否は必ず確認。

トラブルシューティング詳解

一覧に出てこない

ページの完全読み込み（スクロールで画像を出す）→再解析
無限スクロール：ページャのJSON/API側を直接開く方法も検討
CSS背景：background-imageは対象外→開発者ツールでURL抽出

403/429/要求がブロックされる

並列数を下げ、1ホスト上限も下げる
待機時間を入れる
ログイン必須/Referer必須の領域はブラウザで認証済み状態で実行

名前が化ける/長すぎる

OS禁止文字の置換をON
クエリ切り捨て
32/64/255文字制限のOS対策で接頭辞を短くする

途中で止まる/失敗が多い

タイムアウト→60〜90秒へ延長
リトライ→3回へ
ネットワークの一時切断→再開機能を活用

FAQ

Q. サブページまで自動で辿れますか？
A. 基本は表示中のページ範囲。多階層の全クロールは対象外なことが多いです。サイトマップや一覧ページを作る／別ツール併用が現実的。

Q. 連番の順序は何で決まる？
A. 一覧の並び順（URL・検出順・ユーザーソート）に依存。開始前に並べ替えるのがコツ。

Q. 大量DLでBANされない？
A. 保証はできません。並列・間隔・時間帯の配慮と、サイトの利用規約順守が前提です。

Q. 画像がCDNでサイズ分岐している場合のベストは？
A. 除外にクエリ名（例：*?width=*）やサイズ語を入れ、“原寸”と思われるパターンだけ含む正規表現を重ねます。