DifyでどのAIモデルを使うか

はじめに
①モデルプロバイダーを選ぶ
②プロバイダーが提供するモデルを有効化／無効化する
③デフォルトで使用するモデルを指定する

はじめに

Difyで生成AIアプリを作成する際は、まず 「どのAIモデルを採用するか」 を決める必要があります。設定項目は大きく分けて5つあり、下記の3つが必須、残り2つが 必要に応じて追加する形です。

区分	モデルの種類	役割（Dify/生成 AI に不慣れな方向けの補足）
必須	① システム推論モデル	アプリの「頭脳」。ユーザーからの質問を理解し、回答を生成する大規模言語モデル（LLM）です。
	② 埋め込みモデル	テキストを数値ベクトルに変換し、類似検索や検索拡張生成（RAG）を行うためのモデルです。
	③ Rerank（リランキング）モデル	検索で得られた複数候補を文脈に合う順に並べ替え、より的確な回答を導きます。
任意	④ 音声 → テキスト（STT）モデル	音声データをテキストに変換します。
	⑤ テキスト → 音声（TTS）モデル	生成したテキストを音声で読み上げます。

モデル設定の手順（3 ステップ）

モデルプロバイダーを選ぶ
例：OpenAI・Anthropic・Amazon Bedrockなど。提供するモデル、料金体系や日本語性能が異なるため、用途と予算を見比べて選択します。
プロバイダーが提供するモデルを有効化／無効化する
「モデルプロバイダー」設定ページで、上表の5種に設定する可能性があるモデルをオン／オフ切り替えます。筆者は「うっかり使うとデポジット（前払い残高）を一気に消費してしまう高額モデル」も、あらかじめオフにしています。
デフォルトで使用するモデルを指定する
有効化したモデルの中から、「システム推論モデル」などアプリが既定で呼び出すモデルを選びます。ここで決めたモデルが、ユーザーが特に変更しない限り使われます。

①モデルプロバイダーを選ぶ

筆者は 生成AI業界の定番モデルを中心に利用しています。業務で比較検証する際に Google Gemini や オンプレミスで動かすローカルLLMなども試しますが、最終的には下記の構成に落ち着くケースがほとんどです。

用途	採用モデル	選択理由・特徴
システム推論	OpenAI GPT シリーズ / Anthropic Claude シリーズ	GPT: 精度が高く、特定用途に強いモデルの種類も豊富。短〜中コンテキストでの指示追従度が高い。 Claude: 要約や法務レビューなど長文タスクに強い。日本語が自然で丁寧な回答。上位モデルはPDFを直接インプット可能。
埋め込み	OpenAI text-embedding シリーズ	多言語で高い語義分解能力を持ち、RAG用途のベンチマークで優れる。価格性能比が良い。
Rerank	Cohere Reranker	OpenAI / Google 提供の Rerank ベンチを上回る精度指標（NDCG・MAP）を記録。API レイテンシが短く、検索→再順位付けの遅延を最小化。
音声→テキスト（STT）	OpenAI Whisper	騒音下でも高精度（Word Error Rate 5% 前後）。モデルサイズが複数。
テキスト→音声（TTS）	OpenAI TTS	表情豊かな音声プリセットが多彩（ニュース調・カジュアル等）。速度・音程の細かいパラメータ制御が可能。

上表のように、モデルプロバイダーはOpenAI、Anthropic、Cohereの3社で用途をカバーできるため、筆者はこの3つに絞って設定しています。もっとも、OpenAI のモデルは Microsoft Azure版でも利用できますし、Google Geminiなど他社のモデルも非常に高性能です。ですから、筆者の選択が “唯一の正解” というわけではありません。

ポイント

モデル間の細かな違いを理解し、自分で最適解したい方 は、用途に合わせて自由に組み合わせてOK。
「違いがよく分からないので、まずは無難な構成で始めたい」という方 は、今回挙げた3社の組み合わせでスタートすると失敗が少ないと思います。

ところで、当ブログは プロのAI エンジニア向けというよりも、

業務寄りのIT部門やDX 推進担当者といったプロ AI ユーザー
個人で生成 AI を気軽に試してみたいカジュアル層

を主な読者として想定し、「分かりやすく・手間をかけず・低コスト」 を軸に情報を発信しています。

モデルや開発環境の選択でもこの方針を採用しています。たとえば企業ユースでは、信頼性を重視して本家よりもMicrosoft Azure版 OpenAIを採用するケースが多いのですが、AzureはAPIキー発行までの手順が本家より煩雑です。そこで本記事では、本家OpenAIやCohereといった、よりシンプルに始められる選択肢を紹介しています。

プロのAIエンジニアの皆さまへ
既に十分ご存じの内容が多いかもしれませんが、もし興味をお持ちいただければ大歓迎です。専門家の視点からのフィードバックも、ぜひお聞かせください。

②プロバイダーが提供するモデルを有効化／無効化する

有効化しているOpenAIモデルと無効化の基準

筆者が現在オンにしているのは、

安価で高性能
上位互換がまだ出ていない

モデルだけです。反対に、次のいずれかに当てはまるモデルはオフにしています。

オフにする理由	例
すでに上位互換モデルがあり、コストと性能のバランスで劣る	旧世代の GPT-4x モデルなど
料金が割高で、少し使うだけでもデポジットを圧迫する	o1モデルなど
推論速度が遅く、ユーザー体験を損なう	超高精度だがレイテンシが高いモデル

モデル名に「日付がある／ない」の違い

表記	意味	こんなときに便利
`gpt-4.1`	同系統（gpt-4.1）の最新バージョンを常に指すエイリアス。OpenAI がアップグレードすると自動で切り替わります。	「とにかく最新版を使いたい」「細かいバージョン管理は不要」
`gpt-4.1-YYYY-MM-DD`例: `gpt-4.1-2025-04-14`	発行日に固定されたバージョン。新しいリリースがあっても内容は変わりません。	アップデートで挙動が変わると困る検証・運用シナリオ