几乎每隔一段时间,中国就有一个所谓的大模型创业公司出来,在资本市场和媒体中猛夸一顿。上次是Kimi,这次出来的是DeepSeek。这个公司是来自杭州的幻方量化公司孵化的。这把火会持续多久呢?
DeepSeek是一家中国的人工智能公司,其发布的DeepSeek-V3模型确实取得了显著的成果,但说该公司超越了OpenAI,这种说法还需要更全面的考量。具体分析如下:
• DeepSeek-V3的优势:
在性能方面,DeepSeek-V3在多项基准测试中表现出色,在数学基准测试math500和aime2024中,超越了llama3.1-405b、claude-3.5-sonnet以及gpt-4o等模型;在代码能力的codeforces基准测试里,比国外主流大模型高出约30分。该模型还采用了诸如mla(multi-headlatentattention)、moesparse等自研架构,减少了显存占用,提高了计算资源的利用效率。训练成本仅为557万美元,而gpt-4o的模型训练成本约为1亿美元;其输入+输出价格也约为gpt-4o的十分之一。
• OpenAI的优势:
OpenAI作为人工智能领域的先驱,在大语言模型领域有深厚的技术积累和广泛的影响力。其研发的GPT系列模型在自然语言处理的多个方面都有出色的表现,并且在推理能力、对复杂问题的处理能力等方面也有显著的优势。例如,OpenAI的o1、o3模型展现出了令人瞩目的推理能力,在物理、化学和生物学等复杂学科的高难度基准任务上,o1模型表现几乎与博士生相当。
那么 DeepSeek 大模型跟 OpenAI 相比到底具有哪些优劣势和优缺点呢?
• DeepSeek大模型的优势:
• 成本优势显著:DeepSeek-V3的训练成本仅为557.6万美元,远低于OpenAI的GPT-4o等模型,其输入+输出价格也约为GPT-4o的十分之一。
• 部分性能出色:在数学基准测试math500、aime2024以及代码能力的codeforces基准测试中,DeepSeek-V3超越了包括GPT-4o在内的国外主流大模型。
• 技术革新突破:采用mla、moesparse等自研架构,还在通信和显存优化、推理专家的负载均衡和fp8混合精度训练等方面进行了改进,减少了显存占用,提高了计算资源利用效率。
• 开源共享性好:模型100%开源,有助于推动全球AI技术的发展和应用,让更多人能参与到AI大模型的研发和应用中。
• DeepSeek大模型的劣势:
在多模态和娱乐化应用方面,DeepSeek-V3相比于OpenAI的模型还有差距,商业化方面也需要进一步探索。
• OpenAI的优势:
• 技术积累深厚:作为人工智能领域的先驱,在大语言模型领域有长期的研发经验和技术沉淀。
• 模型通用性强:GPT系列模型在自然语言处理的多个方面,如文本生成、理解、翻译等都表现出色,具有较强的通用性和泛化能力。
• 推理能力突出:其部分模型在推理能力、对复杂问题的处理能力等方面较为领先,在物理、化学和生物学等复杂学科的高难度基准任务上表现出色。
• 应用生态丰富:在全球范围内拥有广泛的用户和应用场景,形成了较为完善的应用生态系统。
• OpenAI的劣势:
训练成本高昂,模型训练需要大量的计算资源和资金投入,这在一定程度上限制了其模型的发展和推广。