全球主要 AI 相關供應商總覽(2026 年 4 月)
資料時間:2026 年 4 月 | 涵蓋範圍:23 家模型供應商、7 類推論平台、11 種應用領域
本報告系統性整理 2026 年全球 AI 產業的關鍵玩家與技術選項,從「誰在造模型」到「誰在跑模型」再到「AI 能做什麼」,提供一份完整的產業地圖。
報告涵蓋三個核心維度:
- 模型層:23 家供應商的背景、動機與產品定位(美國、歐洲、中國、日韓、東南亞、中東、印度、台灣)
- 推論層:專用晶片、GPU 推論、雲端平台、本地推論、邊緣 AI 等 7 類基礎設施的比較與選用
- 應用層:文字對話、圖像生成、影片生成、語音合成/辨識、音樂生成、程式碼助手、AI 搜尋、Agent 框架、文件理解、3D 生成等 11 個領域的工具對照
每個章節均附有對照表與選用建議,方便依據實際需求快速定位適合的方案。
- 一、供應商背景與推出模型的動機
- 二、模型產品分類與等級對照表
- 三、AI 推論與平台服務層
- 四、AI 應用面分類:依任務類型選工具
- 五、快速選用指南:依任務選模型
- 六、閉源 vs 開源的取捨
- 七、產業全景圖
- 參考來源
- 背景:最初由 Elon Musk、Sam Altman 等人以非營利組織形式成立,目標是確保 AGI 安全地造福人類。後轉型為「有限營利」結構以吸引資金,Microsoft 為最大投資方。
- 為何推出模型:2022 年底 ChatGPT 爆紅,證明了 LLM 的商業價值。OpenAI 從研究機構轉為 AI 平台公司,率先定義了「通用 AI 助手」市場。先發優勢 + 最大的開發者生態系是核心護城河。
- 背景:由 OpenAI 前研究副總裁 Dario Amodei 與其姊 Daniela Amodei 帶領 7 名研究員出走創立。主要投資方包括 Amazon、Google。
- 為何推出模型:創辦團隊認為 OpenAI 過度追求商業化,忽視 AI 安全。Anthropic 的核心理念是「安全優先的 AI 開發」,以 Constitutional AI(憲法式 AI)方法訓練模型,強調可控性與可靠性。切入點是成為企業級 AI 的首選。
- 背景:Google 是 Transformer 架構的發明者(2017 "Attention Is All You Need"),擁有最深厚的 AI 研究底蘊。2023 年將 Google Brain 與 DeepMind 合併為 Google DeepMind。
- 為何推出模型:ChatGPT 上線後,Google 搜尋業務面臨生存級威脅。Gemini 系列是 Google 的戰略反擊——將 AI 嵌入搜尋、雲端、Android、Workspace 等全產品線,靠生態整合與超大 context window 差異化。
- 背景:全球最大社群媒體公司(Facebook、Instagram、WhatsApp),由 Mark Zuckerberg 領導。
- 為何推出模型:Meta 選擇開源策略,理由是:(1) 不想依賴 OpenAI/Google 的 API,需要自主 AI 能力驅動廣告推薦與內容生成;(2) 透過開源 Llama 建立社群生態,讓全球開發者幫忙改進模型;(3) 開源可削弱閉源競爭者的定價能力。
- 背景:由 Elon Musk 創立,團隊成員多來自 OpenAI、DeepMind、Google。Musk 原是 OpenAI 共同創辦人,後因方向分歧離開。
- 為何推出模型:Musk 認為 OpenAI 等主流 AI 公司存在政治偏見(所謂「過度 woke」),xAI 的定位是打造「更少審查、追求真相」的 AI。Grok 深度整合 X(前 Twitter)平台的即時資料,主打即時資訊存取能力。
- 背景:由三位法國 AI 研究者創立——Arthur Mensch、Guillaume Lample、Timothée Lacroix,均為 Google DeepMind 與 Meta AI 前員工。估值約 €117 億。
- 為何推出模型:歐洲唯一能與美國 AI 巨頭正面競爭的公司。核心訴求是 (1) 歐洲資料主權(符合 GDPR 等法規需求);(2) 開源/開放權重模型,讓企業可自行部署;(3) 以更少算力達到高性能,強調成本效率。
- 背景:由中國量化對沖基金幻方量化(High-Flyer)創辦人梁文鋒成立,總部在杭州。
- 為何推出模型:2025 年初 DeepSeek-R1 震驚全球——以極低訓練成本達到頂級性能。動機是 (1) 在美國晶片出口管制下,證明中國可以用更少算力做出強模型;(2) 開源策略吸引全球開發者;(3) 幻方量化本身需要強推理能力支撐量化交易研究。
- 背景:阿里巴巴集團旗下雲端事業,中國最大公有雲供應商。
- 為何推出模型:(1) Qwen 是阿里雲 AI 平台的核心引擎,用模型帶動雲端業務營收;(2) 原生中英雙語能力,瞄準亞太市場;(3) 在美國晶片管制下,以效率優化(更低成本、更高吞吐量)作為差異化競爭策略;(4) 開源策略建立開發者生態。
- 背景:全球市值最高的科技公司,擁有超過 20 億台活躍裝置(iPhone、iPad、Mac)。2024 年 WWDC 正式發表 Apple Intelligence。
- 為何推出模型:Apple 的 AI 策略與其他廠商截然不同——以「隱私優先」為核心差異化。on-device 模型(約 30 億參數,針對 Apple Silicon 深度優化,採用 KV-cache sharing 與 2-bit 量化感知訓練)處理大多數請求,敏感任務才送往 Private Cloud Compute(PCC)。2026 年 1 月宣布與 Google 合作,以每年約 $10 億授權費引入 1.2 兆參數的客製 Gemini 模型驅動全新 Siri,預計隨 iOS 27 推出。PCC 伺服器已升級至 M5 晶片,並引入 Agent Worker 架構。
- 背景:由 Google Brain 前研究員 Aidan Gomez(Transformer 論文 "Attention Is All You Need" 共同作者)、Ivan Zhang、Nick Frosst 在多倫多創立。主要投資方包括 NVIDIA、AMD、Oracle、Salesforce,估值約 $70 億。
- 為何推出模型:Cohere 專注企業市場,核心差異化是 (1) 原生多語言 RAG 能力;(2) 可私有部署,資料不出境;(3) Rerank 模型在搜尋準確度上領先。最新旗艦 Command A(111B 參數)強化推理、Agent 工具呼叫與視覺理解。2026 年 4 月傳出正與德國 Aleph Alpha 洽談合併,計畫設立加拿大與德國雙總部。
- 背景:由 Yoav Shoham、Ori Goshen、Amnon Shashua 在特拉維夫創立,是以色列最具代表性的 AI 模型公司。
- 為何推出模型:AI21 Labs 的核心創新是 SSM-Transformer 混合架構——Jamba 系列結合 Mamba 狀態空間模型與 Transformer,在長 context 場景下比純 Transformer 更高效。最新 Jamba 2 提供 3B 與 Mini(52B MoE / 12B active)兩個版本,以 Apache 2.0 開源,主打企業級可靠性與低延遲推論。
- 背景:阿布達比先進技術研究委員會(ATRC)旗下的國家級應用研究中心,代表 UAE 的主權 AI 投資。
- 為何推出模型:Falcon 系列是 UAE 國家級 AI 戰略的核心產出。Falcon 3(2024 年底發表)提供 1B 至 10B 參數的開源模型,以 14 兆 tokens 訓練。2026 年進一步擴展至多模態:Falcon Perception(影像理解與物件辨識)、Falcon H1R 7B(推理專用,全球 7B 級最強)。所有模型開源,目標是讓高性能 AI 在輕量基礎設施上也能運行。
- 背景:韓國最大搜尋引擎與網路平台,市佔率超過 60%。AI 研發由 NAVER Cloud 與 CLOVA AI 團隊主導。
- 為何推出模型:韓語是低資源語言,通用英語模型在韓語任務上表現不佳。Naver 自研 HyperCLOVA X 系列深度優化韓語理解,最新包括 HyperCLOVA X THINK(128K context,深度推理)、OMNI(8B,文字/語音/視覺全模態)、SEED(0.5B–3B,商用開源)。2026 年 4 月關閉獨立 Clova X 服務,將 AI 能力整合至搜尋產品線。
- 背景:韓國最大即時通訊平台 KakaoTalk 的母公司,擁有超過 5,000 萬用戶。
- 為何推出模型:Kakao 的 AI 策略是雙軌並行——自研 Kanana 模型 + 與 OpenAI 合作將 ChatGPT 整合進 KakaoTalk。最新 Kanana-2 採用 MLA + MoE 架構(30B 總參數 / 3B active),支援韓英日中泰越 6 種語言,專為 Agentic AI 優化(工具呼叫、複雜指令遵循),以開源釋出。
- 背景:全球最大消費電子公司,Galaxy 系列手機年出貨量超過 2 億台。
- 為何推出模型:Samsung 的 AI 策略以 on-device 為核心。自研 Gauss 模型深度整合至 Galaxy S26 系列,透過 Galaxy AI 提供系統級 AI 體驗(智慧摘要、即時翻譯、相機增強、主動通知)。與 Google Gemini 合作處理雲端任務,Gauss 負責裝置端推論,強調隱私與低延遲。
- 背景:由前 Google 研究員 David Ha 與 Llion Jones(Transformer 論文共同作者)在東京創立。2025 年 11 月完成 Series B 融資,估值 $26.5 億。
- 為何推出模型:Sakana AI 的核心方法是「進化式 AI」——透過演化演算法組合與進化現有模型,產生針對特定任務優化的新模型。最新 Namazu 模型系列驅動消費者產品 Sakana Chat,專注日本市場。同時與日本防衛省合作開發多域態勢感知系統。
- 背景:日本最大的 AI 新創公司,專注深度學習與機器人技術,與 Toyota、FANUC 等製造業巨頭深度合作。
- 為何推出模型:PFN 自研 PLaMo 系列是日本國產 LLM 的代表。PLaMo 2.1 Prime(2025 年 10 月發表)新增自動工具呼叫功能,可整合多個內外部資料庫與 AI Agent。PLaMo Translate 被日本政府 AI 專案「玄内」採用,處理行政文件翻譯。
- 背景:日本最大電信公司,研發預算全球電信業最高。
- 為何推出模型:tsuzumi 2 是 NTT 自研的輕量級日語 LLM,設計理念是「多個小型專精模型協作」而非單一巨型模型。主打低能耗、可 on-premises 部署,瞄準日本企業與地方政府的 DX 轉型需求。2026 年 MWC 展示光子網路(IOWN)與 AI 推論的整合。
- 背景:由 Jonas Andrulis 在海德堡創立,是歐洲主權 AI 的代表企業。2025 年底創辦人卸任 CEO,由 Schwarz Group(Lidl/Kaufland 母公司)背景的管理層接手,轉型為主權 AI 基礎設施公司。
- 為何推出模型:Aleph Alpha 的定位從「歐洲的 OpenAI」轉向「歐洲的主權 AI 平台」。核心產品 PhariaAI 透過 Schwarz Group 旗下的 STACKIT 雲端平台提供,強調 GDPR 合規、資料不出歐盟。主要客戶為歐洲政府機構與國防部門。2026 年 4 月傳出與加拿大 Cohere 洽談合併。
- 背景:由 IIT Madras 教授 Pratyush Kumar 與 Vivek Raghavan 在班加羅爾創立,是印度主權 AI 的代表。
- 為何推出模型:印度有 22 種官方語言,通用英語模型無法有效服務 14 億人口。Sarvam AI 從零訓練 30B 與 105B 參數模型,支援 22 種印度語言的即時語音與深度推理。Saaras V3 語音模型支援串流低延遲解碼。在 2026 年 India AI Impact Summit 上發表,號稱在多項基準上超越 DeepSeek R1 與 Gemini Flash。
- 背景:俄羅斯最大搜尋引擎與科技公司。2024 年因國際制裁,荷蘭控股公司 Nebius Group 以 $53 億出售俄羅斯資產給俄國投資者。
- 為何推出模型:YandexGPT 是俄語市場的主導 AI 模型,透過語音助手 Alisa 觸及數千萬用戶。最新 YandexGPT 5 提供 Pro 與 Lite 兩個版本,透過 Yandex Cloud Foundation Models API 提供。2026 年 Q1 調查顯示 Yandex Alisa AI 已超越 ChatGPT 和 DeepSeek 成為俄羅斯最受歡迎的 AI 服務。
- 背景:新加坡政府資助的國家級 AI 計畫,由新加坡國立大學等機構執行。
- 為何推出模型:東南亞有 11 種主要語言,多數為低資源語言。SEA-LION(Southeast Asian Languages In One Network)基於 Llama 架構進行持續預訓練,針對東南亞語言深度優化。最新 SEA-LION v3.5 提供 8B 與 70B 版本(含推理變體),2026 年 3 月新增 SEA-LION Embedding 模型(基於 ModernBERT + Gemma 3 tokenizer),專為東南亞語言的語意搜尋設計。所有模型開源。
- 背景:台灣在全球 AI 產業鏈中佔據獨特位置——TSMC 製造全球 90% 以上先進 AI 晶片、MediaTek 是全球最大行動 SoC 供應商(Dimensity 9500 內建 NPU 支援 on-device 生成式 AI)、Foxconn 正建造搭載 10,000 顆 NVIDIA Blackwell GPU 的 AI 工廠。在模型層,台灣由政府主導推動主權 AI。
- 為何推出模型:繁體中文是全球約 5,000 萬人使用的書寫系統,但主流 LLM 的繁中訓練資料嚴重不足,且常混淆繁簡體用語與台灣文化脈絡。台灣的主權 AI 計畫包括:
- TAIDE(Trustworthy AI Dialogue Engine):國科會主導,最新 Gemma-3-TAIDE-12b-Chat-2602(2026 年 2 月)基於 Google Gemma 3 進行 mid-training,融入台灣文化語料,開源釋出。已在教育、醫療、法律等領域落地應用。
- FFM(Formosa Foundation Model):台智雲(TWS)基於國網中心 Taiwania-2 超級電腦訓練的 176B 參數企業級繁中模型,提供商用 API 服務。
- Taiwan AI Labs(台灣人工智慧實驗室):2017 年由 PTT 創辦人杜奕瑾成立,專注可信任 AI 研究,涵蓋醫療、金融、新聞媒體等領域。
- AISO Alliance(主權 AI 聯盟):2026 年成立,整合台灣硬體與軟體能力,定位為全球企業在美中之外的「第三選項」。
每家供應商基本上都依循「三層架構」:旗艦(最強)→ 均衡(性價比)→ 輕量(低成本高速)。
| 等級 | OpenAI | Anthropic | Meta | xAI | Mistral | DeepSeek | Alibaba | |
|---|---|---|---|---|---|---|---|---|
| 旗艦 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro | Llama 4 Behemoth | Grok 4.20 | Mistral Large 3 | DeepSeek-V3.2 | Qwen 3.5 (397B) |
| 均衡 | GPT-5.4 mini | Claude Sonnet 4.6 | Gemini 3 Flash | Llama 4 Maverick | Grok 4 | Mistral Medium 3.1 | DeepSeek-V3.1 | Qwen 3.5-Flash |
| 輕量 | GPT-5.4 nano | Claude Haiku 4.5 | Gemini 3.1 Flash-Lite | Llama 4 Scout | Grok 3 mini | Mistral Small 4 | DeepSeek-V3 | Qwen 3 Turbo |
| 推理專用 | GPT-5.4 (reasoning) | Sonnet 4.6 extended thinking | Gemini thinking | — | Grok 4.20 (內建) | Magistral Medium 1.2 | DeepSeek-R1-0528 | QwQ |
| 等級 | 適合什麼 | 成本 | 延遲 |
|---|---|---|---|
| 旗艦 | 複雜推理、長文分析、高風險決策、研究 | 高 | 較慢 |
| 均衡 | 日常開發、客服、內容生成、大多數生產環境 | 中 | 適中 |
| 輕量 | 分類、摘要、高吞吐量批次處理、即時回應 | 低 | 快 |
| 推理專用 | 數學、程式碼、邏輯推理、規劃等需要「慢思考」的任務 | 高 | 慢(刻意思考) |
Context window 是選模型的關鍵指標之一,決定單次能處理多少文字。
| 模型 | 供應商 | Context Window | 備註 |
|---|---|---|---|
| Llama 4 Scout | Meta | 10M tokens | 單 H100 GPU 可跑,開源 |
| Claude Opus 4.6 / Sonnet 4.6 | Anthropic | 1M tokens | 2026/3/13 全面 GA,無長 context 加價 |
| Gemini 3.1 Pro / 3 Flash | 1M tokens | 1M input,64K output | |
| Llama 4 Maverick | Meta | 1M tokens | 400B MoE,開源 |
| GPT-5.4 | OpenAI | 272K(標準)/ 1M(API) | 超過 272K 時 2x 計費 |
| GPT-5.4 mini / nano | OpenAI | 400K tokens | 128K output window |
| Qwen 3.5 | Alibaba | 256K tokens | 397B MoE,Apache 2.0 |
| Mistral Large 3 | Mistral | 256K tokens | 675B MoE,Apache 2.0 |
| GPT-4o | OpenAI | 128K tokens | 仍廣泛使用的均衡選擇 |
| DeepSeek V3 / R1 | DeepSeek | 128K tokens | 開源,極低 API 定價 |
以下為標準定價(非批次、非快取)。批次 API 通常可享 50% 折扣。
| 模型 | 供應商 | 輸入 | 輸出 | 定位 |
|---|---|---|---|---|
| Claude Opus 4 | Anthropic | $15.00 | $75.00 | 最強旗艦 |
| GPT-5 | OpenAI | $5.00 | $15.00 | 旗艦推理 |
| Claude Sonnet 4 | Anthropic | $3.00 | $15.00 | 最佳性價比旗艦 |
| Gemini 2.5 Pro | $1.25–$2.50 | $10.00–$15.00 | 長 context 首選 | |
| GPT-4.1 | OpenAI | $2.00 | $8.00 | 程式碼優化 |
| Cohere Command R+ | Cohere | $2.50 | $10.00 | 企業 RAG 專用 |
| GPT-4.1 Mini | OpenAI | $0.40 | $1.60 | 均衡低成本 |
| Gemini 2.5 Flash | $0.15 | $0.60 | 高速低成本 | |
| Gemini 2.0 Flash | $0.10 | $0.40 | 最便宜 Google | |
| GPT-4.1 Nano | OpenAI | $0.10 | $0.40 | OpenAI 最低價 |
| DeepSeek V3 | DeepSeek | $0.27 | $1.10 | 開源最低價 |
| DeepSeek R1 | DeepSeek | $0.55 | $2.19 | 開源推理最低價 |
節省成本技巧:
- 快取(Prompt Caching):Anthropic 快取讀取僅需原價 10%,Google 快取寫入免費。重複使用長 system prompt 可省 50–90%。
- 批次 API:OpenAI / Anthropic 批次處理享 50% 折扣,適合非即時任務。
- 模型路由:70% 簡單請求用 Gemini Flash / GPT-4.1 Nano,30% 複雜請求才用旗艦,可降低 80%+ 成本。
模型供應商負責「造模型」,但企業實際部署時,還需要一層「跑模型」的基礎設施。這個維度的玩家可分為五類:
這類公司自研非 GPU 晶片,專為 AI 推論設計,主打極致速度。
| 供應商 | 晶片架構 | 背景與動機 | 核心優勢 | 現況 |
|---|---|---|---|---|
| Groq | LPU(Language Processing Unit) | 2016 年由 Google TPU 設計者 Jonathan Ross 創立。2025 年底被 NVIDIA 以約 $200 億收購,GTC 2026 發表 Groq 3 LPX 整合至 Vera Rubin 平台。 | 確定性延遲、極低 TTFT(首 token 時間)、即時對話級速度 | 已併入 NVIDIA,技術整合至 NVIDIA 推論產品線 |
| Cerebras | WSE(Wafer-Scale Engine) | 2015 年成立。2026 年 3 月與 AWS 達成多年合作,進駐 Amazon Bedrock。估值 $230 億。 | 最高原始吞吐量(~3000 tokens/sec)、晶圓級運算 | 計畫 2026 Q2 IPO,已與 OpenAI 簽下 $100 億算力合約 |
| SambaNova | RDU(Reconfigurable Dataflow Unit) | 2017 年由史丹佛大學研究者創立。 | 單一系統可同時跑多個大模型、無量化精度損失 | 主攻企業私有部署市場 |
這類公司用 NVIDIA GPU 叢集託管開源模型,提供 API 服務,競爭重點是速度、價格和模型豐富度。
| 供應商 | 成立 | 核心優勢 | 支援模型 |
|---|---|---|---|
| Together AI | 2022 | 推論 + 微調 + 訓練一站式、FlashAttention 原生優化 | Llama、Qwen、DeepSeek、Mistral 等 |
| Fireworks AI | 2022 | 極低延遲、支援自訂模型上傳與微調、企業級 SLA | 同上,另支援圖像/語音模型 |
| Replicate | 2019 | 最簡單的開發者體驗、按秒計費、支援自訂 Docker 容器 | 涵蓋 LLM、圖像生成、語音等數千個模型 |
| DeepInfra | 2023 | 價格極具競爭力、自動擴縮容 | 主流開源 LLM |
| Hugging Face Inference Endpoints | — | 1M+ 模型 Hub、200+ 模型直接 API 呼叫、pass-through 定價(無加價)、一鍵部署任何 HF 模型 | Hub 上所有公開模型 |
Hugging Face 是開源模型的最大集散地,Inference Endpoints 讓開發者一鍵部署任何 HF 上的模型,定價直接透傳底層算力成本,無額外加價。HF Hub 目前托管超過 100 萬個模型,其中 135,000+ 個為 GGUF 格式(本地推論優化)。
| 供應商 | 特色 | 定價 |
|---|---|---|
| Modal | Python-native 部署、sub-second 冷啟動、自動 GPU 擴縮容、無 DevOps 負擔。開發者社群熱門,適合快速部署自訂模型。 | 從 $0.000463/GPU-sec 起;H100 約 $3.95/hr(持續負載) |
| Replicate | 最簡單的開發者體驗,按秒計費 | 依模型而異 |
| RunPod | 低成本 GPU 租用,支援 Serverless 和 Pod 模式 | H100 從 $1.49/hr 起 |
Modal vs Replicate 選擇:需要自訂程式碼邏輯 → Modal;只需呼叫現有模型 → Replicate。
不需要任何雲端的選項,適合隱私需求高的個人用戶與企業。
| 工具 | 特色 | 現況(2026 Q1) |
|---|---|---|
| Ollama | 最簡單的本地 LLM 部署工具,一行命令下載並執行模型,提供 REST API 與 CLI。底層使用 llama.cpp。 | Q1 2026 月下載量達 5,200 萬次(3 年成長 520x);最新版 0.15.5 新增 GLM-OCR(文件理解)和 Qwen3-Coder 支援 |
| llama.cpp | 最廣泛使用的 CPU/GPU 量化推論引擎,支援 GGUF 格式,可在 MacBook 上跑 70B 模型 | 持續更新,支援 Apple Silicon MLX 加速 |
| LM Studio | 圖形化介面的本地 LLM 工具,適合非開發者 | 支援 Windows/Mac/Linux |
本地推論適用場景:資料不出境的企業合規需求、個人隱私保護、離線環境、開發測試(無 API 費用)。
| 供應商 | 核心產品 | 定位 |
|---|---|---|
| Cloudflare | Workers AI(50+ 開源模型,全球 60+ 節點,<50ms 延遲)、AI Gateway(統一 API 閘道)、Agents SDK(MCP)、Vectorize(向量 DB) | AI 應用的邊緣開發平台 |
| Akamai | Inference Cloud(4,400+ 邊緣節點部署 NVIDIA RTX PRO 6000 Blackwell GPU) | 硬體級邊緣推論,首家全球規模部署 NVIDIA AI Grid |
| Vercel | AI SDK v6(TypeScript,200 萬+週下載量,支援所有主流模型)、邊緣 AI Gateway | 前端/全端開發者的 AI 開發平台 |
| Fastly | Compute 支援邊緣 AI Agent,強調安全沙箱執行 | 安全導向的邊緣 AI 運算 |
| 平台 | 所屬 | 核心優勢 | 可用模型 |
|---|---|---|---|
| Amazon Bedrock | AWS | 最多模型選擇、與 AWS 服務深度整合、Serverless | Claude、Llama、Mistral、Cohere、Cerebras(2026 H2) |
| Azure AI | Microsoft | OpenAI 模型獨家企業版、與 Microsoft 生態深度整合 | GPT 系列(獨家)、Llama、Mistral、Phi |
| Google Vertex AI | Google Cloud | Gemini 原生整合、最強 AutoML 工具 | Gemini 系列、Claude、Llama、Mistral |
Cohere(加拿大)是專注企業市場的 LLM 供應商,主打 RAG 和企業搜尋,在 AWS Bedrock 和 Azure AI 上架。最新旗艦 Command A(111B 參數)強化推理與 Agent 能力。
| 模型 | 定位 | 定價(每百萬 tokens) |
|---|---|---|
| Command R+ | 複雜 RAG、多步驟 Agent、企業推理 | 輸入 $2.50 / 輸出 $10.00 |
| Command R | 簡單 RAG、單步工具使用 | 輸入 $0.15 / 輸出 $0.60 |
| Embed 4 | 語意搜尋、向量嵌入 | $0.10 / 百萬 tokens |
| Rerank 3.5 | 搜尋結果重排序 | 依查詢計費 |
Cohere 的核心差異化:原生多語言 RAG 支援、企業級資料隱私(可私有部署)、Rerank 模型在搜尋準確度上領先。
| 你的情境 | 推薦類型 | 代表 |
|---|---|---|
| 需要極致低延遲(即時對話、語音 AI) | 專用晶片平台 | Groq(NVIDIA)、Cerebras |
| 用開源模型、要便宜又快 | GPU 推論平台 | Together AI、Fireworks AI |
| 已在某朵雲上、要整合現有服務 | 雲端 AI 平台 | Bedrock / Azure AI / Vertex AI |
| 想最簡單跑起來、不管基建 | GPU 推論平台 | Replicate |
| 企業私有部署、資料不出境 | 專用晶片 or 自建 | SambaNova、自架 GPU |
| 隱私優先、完全本地 | 本地推論 | Ollama + llama.cpp |
| 快速部署自訂 AI 模型、無 DevOps | Serverless GPU | Modal |
| 企業 RAG / 搜尋場景 | 企業專用 LLM | Cohere |
| AI 應用要部署到全球邊緣 | 邊緣 AI 基礎設施 | Cloudflare、Akamai、Vercel |
除了「通用文字對話」之外,AI 已擴展到多種專門應用領域。以下依應用類型整理主要供應商與工具。
| 供應商/工具 | 背景 | 核心優勢 | 開源/閉源 |
|---|---|---|---|
| Midjourney V8.1 Alpha | 獨立研究實驗室,2022 年成立。V8.1 Alpha 於 2026/4/14 發表。 | 美學品質最強、風格化能力無人能及 | 閉源(Discord / Web) |
| GPT Image 1.5(OpenAI) | 整合於 ChatGPT,取代 DALL-E 3。另有 gpt-image-1-mini 低成本版。 | 文字渲染最準確、與對話無縫整合 | 閉源(API) |
| Flux 2 系列(Black Forest Labs) | 由 Stable Diffusion 原始團隊出走創立(德國)。Flux 2 有 max/pro/flex/klein 四個變體。 | 開源生態最強、速度快(klein 可 sub-second)、寫實品質頂級 | 開源 |
| Stable Diffusion 3.5(Stability AI) | 英國公司,開源圖像生成先驅。有 Large/Turbo/Medium 三版。 | 社群龐大、可本地運行、高度可客製 | 開源 |
| Google Nano Banana Pro | Google DeepMind 出品,Gemini 3 系列原生圖像模型。另有 Imagen 4(獨立模型)。 | 專業 4K 品質、精確文字渲染、整合 Gemini 生態 | 閉源(API) |
選用建議:藝術/行銷素材 → Midjourney;需要精確文字 → GPT Image / Nano Banana Pro;自架/客製 → Flux / Stable Diffusion
| 供應商/工具 | 背景 | 核心優勢 |
|---|---|---|
| Veo 3.1 / 3.1 Lite(Google DeepMind) | Google 旗下,2026 年領先者。Lite 版為低成本開發者版。 | 原生音訊、電影級品質、與 YouTube 生態整合 |
| Kling 3.0(快手 Kuaishou) | 中國短影片平台快手出品,2026/2/5 發表 | 原生 4K 60fps、多鏡頭分鏡(最多 6 個鏡位)、原生音訊同步 |
| Sora 2(OpenAI) | OpenAI 出品,2024 年底發表 | 物理模擬最真實、角色一致性強 |
| Runway Gen-4.5 | 美國 AI 影片先驅,2018 年成立。另有 GWM-1 通用世界模型。 | 最完整的編輯工具鏈、鏡頭控制最精細 |
| Wan 2.7(阿里巴巴) | 阿里達摩院出品,2026 年 3-4 月發表 | 開源影片生成之王、1080p 15 秒、原生音訊、內建推理層 |
| Seedance 2.0(字節跳動 ByteDance) | TikTok 母公司出品,2026/2/10 發表 | 4-15 秒 1080p、多模態輸入、原生音訊、電影級畫質 |
選用建議:電影級製作 → Veo 3.1;高畫質商業用 → Kling 3.0;開源自架 → Wan 2.7;創意剪輯 → Runway
| 供應商/工具 | 核心優勢 |
|---|---|
| ElevenLabs Eleven v3 | 最自然的人聲、聲音複製、70+ 語言、情感表達 |
| OpenAI TTS(gpt-4o-mini-tts) | 高品質且便宜、適合大量使用 |
| Voxtral TTS(Mistral) | 開源 TTS 新標竿、人類偏好測試勝率 68.4% vs ElevenLabs |
| Google Chirp 3 / Gemini TTS | 整合 Google 生態、多語言、可控風格 |
| Cartesia Sonic 3 | sub-100ms 延遲、即時對話最佳 |
選用建議:最高品質 → ElevenLabs;大量低成本 → OpenAI TTS;開源自架 → Voxtral;即時對話 → Cartesia
| 供應商/工具 | 核心優勢 |
|---|---|
| Deepgram Nova-3 | 最低錯誤率(WER ~5.7%)、即時串流 sub-250ms |
| AssemblyAI Universal-2 | WER 8.4%、最強音訊智慧功能(摘要、情感分析) |
| OpenAI Whisper | 免費開源、99 種語言、可本地運行 |
| ElevenLabs Scribe v2 | 高精度轉錄、與 ElevenLabs 語音生態整合 |
| Mistral Voxtral Transcribe | 開源 STT、即時轉錄、歐洲合規 |
選用建議:最高精度 → Deepgram Nova-3;開源自架 → Whisper;音訊分析 → AssemblyAI;歐洲合規 → Voxtral Transcribe
| 供應商/工具 | 核心優勢 |
|---|---|
| Suno v5.5 | 最快生成(<60 秒)、人聲清晰、最大用戶基數 |
| Udio Allegro v1.5 | 48kHz 錄音室品質、樂器分離最佳 |
| Google Lyria 3 Pro | 整合 YouTube 生態、SynthID 浮水印、即時生成 |
| Stable Audio(Stability AI) | 開源、開發者可自行部署 |
選用建議:快速出歌 → Suno;專業音質 → Udio;開源 → Stable Audio
| 供應商/工具 | 核心優勢 |
|---|---|
| GitHub Copilot | 最大市佔、VS Code 原生整合、有免費方案 |
| Cursor | 整個編輯器為 AI 設計、多模型切換、codebase 感知最強 |
| Claude Code(Anthropic) | 終端原生、自主完成多步驟任務、程式碼品質最高 |
| Windsurf(Codeium) | 平衡性能與價格、企業隱私功能 |
| Kiro(AWS) | 規格驅動開發、與 AWS 生態整合 |
| OpenAI Codex | 自主完成多步驟任務、沙箱執行、GitHub/Slack 整合 |
| Mistral Devstral 2 | 開源、可自架、軟體工程任務特化 |
選用建議:VS Code 使用者 → Copilot;全新工作流 → Cursor;終端重度使用者 → Claude Code;AWS 生態 → Kiro
| 供應商/工具 | 核心優勢 |
|---|---|
| Perplexity AI | 引用透明、研究級深度搜尋、開發者 API |
| ChatGPT Search(OpenAI) | 對話式搜尋、與 GPT 能力無縫結合 |
| Google AI Overviews | 最大索引量、整合 Google 全生態 |
| Grok Search(xAI) | 即時社群資訊、較少內容審查 |
| Brave Search | 隱私優先、自有索引、免費 |
| Kagi | 零追蹤、無廣告、深度研究模式 |
選用建議:研究/學術 → Perplexity;日常搜尋 → Google AI Overviews;隱私優先 → Brave / Kagi
AI Agent 框架讓開發者建立能自主規劃、使用工具、多步驟執行任務的 AI 系統。2026 年這個領域已高度成熟,有多個生產級選擇。
| 框架 | 語言 | GitHub Stars | 核心特色 | 最適合 |
|---|---|---|---|---|
| LangGraph | Python/JS | 25K(月下載 3,450 萬) | 圖狀態機、最成熟的 checkpointing 和 LangSmith 可觀測性 | 複雜生產 pipeline |
| CrewAI | Python | 46K | 角色扮演式多 Agent 協作,最快原型開發 | 多 Agent 快速原型 |
| Vercel AI SDK v6 | TypeScript | 20M+ npm/月 | 串流、React/Vue/Svelte 整合、原生 MCP 支援 | Web 應用 + Chat UI |
| Mastra | TypeScript | 22K | 內建 RAG、記憶體、工作流,YC W25 | 全端 TypeScript 專案 |
| OpenAI Agents SDK | Python | 19K | 最少框架限制,支援 100+ 模型 | 簡單 Agent |
| Google ADK | Python | 17K | 深度整合 Vertex AI / Cloud Run | GCP 生態 |
| Microsoft Agent Framework | Python/.NET | 28K | 企業級,OpenTelemetry,Azure Monitor | Azure 企業 |
| PydanticAI | Python | 16K | 型別安全、依賴注入、開發時期錯誤捕捉 | 型別安全優先 |
| AutoGen | Python | 36K | 多 Agent 群聊協作(正合併入 MS Agent Framework) | 研究 / 辯論場景 |
選用建議:
- TypeScript 團隊 → Vercel AI SDK(Web)或 Mastra(全端)
- Python 簡單 Agent → OpenAI Agents SDK 或 CrewAI
- Python 複雜 pipeline → LangGraph
- 企業 Azure → Microsoft Agent Framework
- 型別安全優先 → PydanticAI
2026 年趨勢:MCP(Model Context Protocol)已成為標配,CrewAI、Vercel AI SDK、Mastra、Microsoft Agent Framework 均已原生支援。建議將工具實作為 MCP server,可跨框架複用。
AI 驅動的文件解析已大幅超越傳統 OCR,能理解表格、公式、版面結構,並直接輸出 LLM-ready 的 Markdown。
| 供應商/工具 | 核心優勢 | 定位 |
|---|---|---|
| Mistral OCR 3 | SOTA 文件解析精度,複雜表格和手寫辨識領先;定價大幅低於 AWS Textract 和 Google Document AI;保留版面結構(表格、圖片、數學公式) | 最佳性價比,RAG pipeline 首選 |
| Google Document AI | Gemini AI 驅動,支援 50+ 語言,有針對發票、合約、稅表的預訓練處理器 | Google Cloud 生態整合 |
| AWS Textract | 多種專用 API(表單、費用、身分證件、貸款文件),與 AWS 生態深度整合 | AWS 生態整合,政府 ID 辨識最強 |
| Azure Document Intelligence | 印刷文字辨識精度 96%(業界最高),與 Microsoft 生態整合 | 企業 Microsoft 生態 |
| LandingAI ADE | Agentic Document Extraction,DPT-2 架構,支援 Parse / Split / Extract 三種 API | 複雜非結構化文件 |
選用建議:RAG pipeline / 一般文件 → Mistral OCR;AWS 生態 → Textract;政府 ID / 表單 → Textract 或 Azure;Google Cloud → Document AI
3D 生成是 2026 年快速成長的新興應用,主要用於遊戲資產、電商產品展示、AR/VR 場景。
| 供應商/工具 | 核心優勢 | 適用場景 |
|---|---|---|
| Meshy | 最廣泛使用的 3D 生成平台,text-to-3D 和 image-to-3D,輸出 FBX/OBJ/GLB,可直接匯入 Unity/Unreal | 遊戲資產、快速原型 |
| Luma AI Genie | 高品質 3D 場景生成,Luma Labs 出品 | 場景設計、視覺化 |
| Rodin Gen-2 | 商業級 3D 模型生成,有 API,支援批次生成 | 電商產品展示 |
| Tripo3D | 快速 3D 生成,支援動畫 rigging | 遊戲角色 |
| NVIDIA Omniverse | 企業級 3D 協作與模擬平台,整合 NVIDIA AI | 工業設計、機器人模擬 |
選用建議:遊戲資產 → Meshy;場景設計 → Luma Genie;電商 → Rodin Gen-2;企業工業 → NVIDIA Omniverse
| 應用類型 | 閉源首選 | 開源首選 | 最便宜選項 |
|---|---|---|---|
| 文字對話 (LLM) | GPT-5.4 / Claude Opus 4.7 | Llama 4 / Qwen 3.5 | DeepSeek-V3.2 |
| 圖像生成 | Midjourney V8.1 / Nano Banana Pro | Flux 2 Pro | Stable Diffusion 3.5 |
| 影片生成 | Veo 3.1 / Kling 3.0 | Wan 2.7 | Wan 2.7 |
| 語音合成 (TTS) | ElevenLabs Eleven v3 | Voxtral TTS | OpenAI TTS |
| 語音辨識 (STT) | Deepgram Nova-3 | Whisper / Voxtral Transcribe | Whisper |
| 音樂生成 | Suno v5.5 | Stable Audio | Suno 免費方案 |
| 程式碼助手 | Cursor / Claude Code | Devstral 2 | GitHub Copilot Free |
| AI 搜尋 | Perplexity Pro | — | Perplexity Free |
| Agent 框架 | — | LangGraph / CrewAI | OpenAI Agents SDK |
| 文件理解/OCR | Google Document AI | — | Mistral OCR |
| 3D 生成 | Rodin Gen-2 | — | Meshy 免費方案 |
| 你的需求 | 首選 | 次選 |
|---|---|---|
| 程式碼開發 / Debug | Claude Opus 4.7 / Sonnet 4.6 | GPT-5.4 |
| 通用寫作 / 日常助手 | GPT-5.4 | Claude Sonnet 4.6 |
| 長文件分析(>100K tokens) | Gemini 3.1 Pro(1M context) | Claude Opus 4.7(1M context) |
| 超長文件(>1M tokens) | Llama 4 Scout(10M context,開源) | — |
| 數學 / 邏輯推理 | GPT-5.4 (reasoning xhigh) | DeepSeek-R1-0528 |
| 成本敏感的大量請求 | DeepSeek-V3.2 / Qwen 3 Turbo | Gemini 3.1 Flash-Lite |
| 需要自行部署(私有雲/地端) | Llama 4 / Mistral / Qwen(開源) | DeepSeek(開源) |
| 完全本地、不上雲 | Ollama + Llama 4 Scout / Qwen 3.5 | llama.cpp |
| 即時資訊 / 社群數據 | Grok 4.20(整合 X 平台) | Gemini(整合 Google 搜尋) |
| 歐洲合規 / 資料主權 | Mistral | 自架 Llama / Qwen |
| 中文 / 亞太市場 | Qwen 3.5 | DeepSeek-V3 |
| 多模態(圖片/影片/語音) | Gemini 3.1 Pro | GPT-5.4 |
| 企業 RAG / 搜尋 | Cohere Command R+ | Claude Sonnet 4.6 |
| 建立 AI Agent | LangGraph(複雜)/ CrewAI(快速) | OpenAI Agents SDK |
| 文件解析 / OCR | Mistral OCR 3 | Google Document AI |
| 閉源(OpenAI / Anthropic / Google) | 開源(Meta / Mistral / DeepSeek / Qwen) | |
|---|---|---|
| 優點 | 性能最強、持續更新、有 SLA 保障 | 可自架、可微調、無 API 費用、資料不出境 |
| 缺點 | 資料送出、依賴供應商、成本隨用量線性增長 | 需自建 GPU 基礎設施、維運成本、更新較慢 |
| 適合 | 快速上線、中小規模、不想管基建 | 資料敏感、大規模推論、需要深度客製 |
本地推論的崛起:Ollama 在 2026 Q1 達到每月 5,200 萬次下載,顯示「不上雲」的本地推論已成為主流選項之一,尤其在個人開發者和隱私敏感企業中快速普及。
flowchart TB
subgraph HW["🔧 硬體基礎層 — 誰在造晶片?"]
direction LR
TSMC["🇹🇼 TSMC<br/>先進製程 90%+"]
MTK["🇹🇼 MediaTek<br/>Dimensity NPU"]
FOXCONN["🇹🇼 Foxconn<br/>AI Factory"]
NVIDIA["🇺🇸 NVIDIA<br/>GPU / CUDA"]
TAIDE["🇹🇼 TAIDE / FFM<br/>繁中主權 AI"]
end
subgraph MODEL["🧠 模型層 — 誰在造模型?"]
direction TB
subgraph US["🇺🇸 美國"]
direction LR
OPENAI["OpenAI<br/>GPT-5.4"]
ANTHRO["Anthropic<br/>Claude 4.7"]
GOOGLE["Google<br/>Gemini 3.1"]
META["Meta<br/>Llama 4"]
XAI["xAI<br/>Grok 4.20"]
APPLE["Apple<br/>Intelligence"]
end
subgraph EU["🇪🇺 歐洲 / 🇨🇦 加拿大"]
direction LR
MISTRAL["🇫🇷 Mistral<br/>Large 3"]
ALEPH["🇩🇪 Aleph Alpha<br/>PhariaAI"]
COHERE["🇨🇦 Cohere<br/>Command A"]
end
subgraph CN["🇨🇳 中國"]
direction LR
DS["DeepSeek<br/>V3 / R1"]
QWEN["Alibaba<br/>Qwen 3.5"]
end
subgraph KR["🇰🇷 韓國"]
direction LR
NAVER["Naver<br/>HyperCLOVA X"]
KAKAO["Kakao<br/>Kanana-2"]
SAMSUNG["Samsung<br/>Galaxy AI"]
end
subgraph JP["🇯🇵 日本"]
direction LR
SAKANA["Sakana AI<br/>Namazu"]
PFN["PFN<br/>PLaMo 2.1"]
NTT["NTT<br/>tsuzumi 2"]
end
subgraph OTHER["🌍 其他"]
direction LR
TII["🇦🇪 TII<br/>Falcon 3"]
AI21["🇮🇱 AI21<br/>Jamba 2"]
YANDEX["🇷🇺 Yandex<br/>GPT 5"]
SARVAM["🇮🇳 Sarvam<br/>105B"]
SEALION["🇸🇬 AI Singap.<br/>SEA-LION"]
end
end
subgraph INFER["⚡ 推論層 — 誰在跑模型?"]
direction LR
CHIP["🔬 專用晶片<br/>Groq · Cerebras<br/>SambaNova"]
GPU["🖥️ GPU 推論<br/>Together · Fireworks<br/>HF · Replicate"]
CLOUD["☁️ 雲端平台<br/>Bedrock · Azure AI<br/>Vertex AI"]
LOCAL["🏠 本地推論<br/>Ollama · llama.cpp<br/>LM Studio"]
EDGE["🌐 邊緣 AI<br/>Cloudflare · Akamai<br/>Vercel · Fastly"]
SERVERLESS["⚡ Serverless<br/>Modal · RunPod"]
end
subgraph APP["🎯 應用層 — AI 能做什麼?"]
direction LR
IMG["🖼️ 圖像<br/>Midjourney<br/>Flux"]
VID["🎬 影片<br/>Veo · Kling<br/>Wan"]
VOICE["🎙️ 語音<br/>ElevenLabs<br/>Voxtral"]
MUSIC["🎵 音樂<br/>Suno<br/>Udio"]
CODE["💻 程式碼<br/>Cursor · Kiro<br/>Claude Code"]
SEARCH["🔍 搜尋<br/>Perplexity<br/>Kagi"]
THREED["🧊 3D<br/>Meshy<br/>Luma"]
OCR["📄 文件/OCR<br/>Mistral OCR<br/>Document AI"]
AGENT["🤖 Agent 框架<br/>LangGraph · CrewAI<br/>Vercel AI SDK"]
end
subgraph USER["👥 使用者層"]
direction LR
ENT["🏢 企業應用"]
DEV["👨💻 開發者"]
SAAS["📦 SaaS 產品"]
END_USER["👤 終端使用者"]
end
HW ==> MODEL
MODEL ==> INFER
INFER ==> APP
APP ==> USER
- GPT-5.4, Claude 4.6, Gemini - GAIM Solutions
- Top 10 AI Models 2026 Complete Ranking - VERTU
- What Is xAI? The Company Behind Grok - Built In
- From OpenAI Split to Building Claude - Noqta
- Mistral AI - AI Wiki
- DeepSeek - Wikipedia
- Will China lead the agentic AI race with Qwen3.5? - ThinkChina
- AI Models 2026: Which Model for Which Use Case? - Gosign
- OpenAI vs Anthropic vs Google: Best LLM in 2026? - MarsDevs
- AI Inference API Providers Compared (2026) - Infrabase
- NVIDIA's $20 Billion Bet: How Groq 3 LPX Is Reshaping AI Inference - AlphaMatch
- Cerebras Raises $1.1B at $8.1B Valuation - Cerebras
- Together AI Revenue & Market Share 2026 - SIG
- Fireworks AI Revenue & Market Share 2026 - SIG
- AWS Bedrock vs Google Vertex AI vs Azure AI Studio - Reintech
- Best AI Voice Models 2026: 12 TTS Providers Tested - TeamDay
- Best Speech-to-Text API in 2026 - TranscribeTube
- Kling vs Sora vs Veo vs Runway: 2026 AI Comparison - AdCreate
- AI Music Models Compared: Suno vs Udio 2026 - AI Magicx
- Best AI Image Generators 2026 - Creative AI News
- AI Coding Agents 2026 Comparison - Lush Binary
- Perplexity AI Review 2026 - SimilarLabs
- Voxtral TTS vs ElevenLabs vs OpenAI TTS - Digital Applied
- LLM API Pricing in 2026: The Complete Cost Comparison - AI Magicx
- LLMs with largest context windows - Codingscape
- AI Agent Frameworks Compared: Which Ones Ship? - Chanl
- The Best AI Agent Frameworks for 2026 - Signadot
- Apple-Google Gemini Partnership - Introl
- Apple Upgrades Private Cloud Compute Servers to M5 Chips - WinBuzzer
- Cohere API Pricing 2026 - PECollective
- Hugging Face Pricing 2026 - MetaCTO
- Deploy ML Workloads on Modal Serverless GPU - MarkAICode
- Ollama Pricing 2026: Benchmarks, Cloud Costs - Pooya Blog
- Mistral OCR 3 Technical Review - PyImageSearch
- Best Document Parsing APIs 2026 - LandingAI
- Best 3D Model Generation APIs in 2026 - 3D AI Studio
- Top 10 AI 3D Model Generators Tools in 2026 - DevOpsSchool
- AI21 Labs - Introducing Jamba2 Open Source LLMs
- TII Falcon 3 - Making Advanced AI Accessible
- TII Launches Falcon Perception Multimodal AI Model
- Naver Shuts Down Clova X, Accelerates AI Integration - Seoul Economic Daily
- HyperCLOVA X OMNI: Korea's Flagship AI - CLOVA AI
- Kakao Kanana-2 Open Source Release - Kakao Corp
- Kakao Updates Kanana-2 with 4 New Versions - Korea Tech Today
- Samsung Galaxy S26 AI Innovations - Samsung
- Sakana AI Enters Chatbot Race with Namazu Model - IT Business Today
- Sakana AI Raises $135M Series B at $2.65B Valuation - TechCrunch
- PFN Launches PLaMo 2.1 Prime with AI Agent Functionality - Preferred Networks
- NTT's tsuzumi 2 Next-Generation LLM - NTT Group
- Aleph Alpha Revenue & Market Share 2026 - SIG
- Cohere and Aleph Alpha in Advanced Merger Talks - Reuters
- India Unveils Sovereign AI Models at Delhi Summit - Business Standard
- Yandex AI Surpassed ChatGPT and DeepSeek in Russia - www1.ru
- SEA-LION Documentation - AI Singapore
- Cohere Command A - Most Performant Model
- TAIDE Taiwanese Native Large Language Model
- TWS Formosa Foundation Model - Enterprise Generative AI
- Taiwan AI Labs
- MediaTek Dimensity 9500 On-Device AI
- Foxconn Builds AI Factory with NVIDIA
- Taiwan Sovereign AI Tracker - Asian Intelligence
資料整理時間:2026-04-22(已依各供應商官方網站更新至最新版本) | 內容經改寫整理,非逐字引用原始來源