DeepSeek

Description:

DeepSeek-AIが開発した、圧倒的なコストパフォーマンスと高い推論能力を誇るオープンソース大規模言語モデルシリーズ。

URL: https://www.deepseek.com/

GitHub:

https://github.com/deepseek-ai/DeepSeek-V3

Tags:

Explore:

Qiita Zenn note Hatena Wikipedia

Updated:

2026/02/05

概要

DeepSeek は、DeepSeek-AI が開発した最先端の大規模言語モデル (LLM) シリーズです。高度な Mixture-of-Experts (MoE) アーキテクチャと独自のトレーニング手法により、非常に低い推論コストで GPT-4o や Claude 3.5 に匹敵する性能を実現しています。特に推論特化型の「DeepSeek-R1」は、複雑な論理思考や数学問題において驚異的な能力を発揮します。

主な特徴

圧倒的なコスト効率: 独自のアーキテクチャ改良により、競合するクローズドモデルの数分の一のコストで API を提供。
DeepSeek-R1 (Reasoning): 強化学習 (RL) を中心としたトレーニングにより、思考プロセス（Chain-of-Thought）を明示的に出力し、難解な数学・プログラミング・論理パズルを高い精度で解決。
DeepSeek-V3: 671B パラメーター（有効 37B）の MoE モデルで、一般的な知識からコーディングまで幅広いタスクを高速に処理。
MLA (Multi-head Latent Attention): メモリ使用効率を高め、推論速度を大幅に向上させる独自の Attention 機構を採用。
完全オープンソース: モデルの重みが公開されており、ローカル環境での運用や蒸留（Distillation）モデルの作成が可能。

仕様

項目	内容
開発元	DeepSeek-AI
主要モデル	DeepSeek-V3, DeepSeek-R1
アーキテクチャ	MoE (Mixture-of-Experts) + MLA
パラメータ数	総計 671B (有効パラメータ 37B)
コンテキスト長	128k (V3) / 131k (R1)
主な機能	推論チャット (R1)、多言語対応、関数呼び出し、コード生成
配布形態	オープンウェイト (Hugging Face) / Web API / ローカル運用 (Ollama等)