DeepSeek
Description:
DeepSeek-AIが開発した、圧倒的なコストパフォーマンスと高い推論能力を誇るオープンソース大規模言語モデルシリーズ。
Tags:
Updated:
2026/02/05
DeepSeek は、DeepSeek-AI が開発した最先端の大規模言語モデル (LLM) シリーズです。高度な Mixture-of-Experts (MoE) アーキテクチャと独自のトレーニング手法により、非常に低い推論コストで GPT-4o や Claude 3.5 に匹敵する性能を実現しています。特に推論特化型の「DeepSeek-R1」は、複雑な論理思考や数学問題において驚異的な能力を発揮します。
- 圧倒的なコスト効率: 独自のアーキテクチャ改良により、競合するクローズドモデルの数分の一のコストで API を提供。
- DeepSeek-R1 (Reasoning): 強化学習 (RL) を中心としたトレーニングにより、思考プロセス(Chain-of-Thought)を明示的に出力し、難解な数学・プログラミング・論理パズルを高い精度で解決。
- DeepSeek-V3: 671B パラメーター(有効 37B)の MoE モデルで、一般的な知識からコーディングまで幅広いタスクを高速に処理。
- MLA (Multi-head Latent Attention): メモリ使用効率を高め、推論速度を大幅に向上させる独自の Attention 機構を採用。
- 完全オープンソース: モデルの重みが公開されており、ローカル環境での運用や蒸留(Distillation)モデルの作成が可能。
| 項目 | 内容 |
|---|---|
| 開発元 | DeepSeek-AI |
| 主要モデル | DeepSeek-V3, DeepSeek-R1 |
| アーキテクチャ | MoE (Mixture-of-Experts) + MLA |
| パラメータ数 | 総計 671B (有効パラメータ 37B) |
| コンテキスト長 | 128k (V3) / 131k (R1) |
| 主な機能 | 推論チャット (R1)、多言語対応、関数呼び出し、コード生成 |
| 配布形態 | オープンウェイト (Hugging Face) / Web API / ローカル運用 (Ollama等) |