deepseek（2023年 - 2024年）

🤖DeepSeek-V3

deepseek

DeepSeek是一家专注于通用人工智能（AGI）研究的中国科技公司，致力于开发先进的AI模型和技术。该公司推出了多个高性能的大语言模型，如DeepSeek LLM系列，在自然语言处理、代码生成和推理任务上表现出色。DeepSeek注重开源协作，提供免费API和模型下载，推动AI技术的普及与应用。其愿景是构建更智能、更通用的AI系统，服务于科研、教育和产业创

事件总数

2023年 - 2024年

时间跨度

🤖人工智能

#大模型#深度学习#开源AI#AGI研究

生成时间: 2025-10-10

2023年11月

深度求索公司（DeepSeek）正式成立，这是一家专注于人工智能大模型研发的中国科技公司。公司由多位拥有深厚技术背景的专家创立，旨在开发先进的通用人工智能（AGI）技术。据资料显示，其核心团队汇集了来自全球顶尖科技公司和学术机构的人才，在自然语言处理、机器学习等领域拥有丰富经验。公司的成立正值全球AI大模型竞争白热化阶段，中国也将AI发展提升至国家战略层面。深度求索自创立之初便确立了以研发具有强大推理和理解能力的AI模型为核心目标，致力于推动人工智能技术的边界。

2024年01月

深度求索公司正式发布了其首个重要的开源大语言模型——DeepSeek LLM。该模型系列包含70亿参数和670亿参数等多个版本，在多项中英文公开基准测试中表现出色，尤其是在代码生成和数学推理能力上备受关注。据资料显示，其训练采用了约2万亿个中英双语令牌的高质量数据，并创新性地融合了分组查询注意力和滑动窗口注意力等关键技术。模型的发布立即在开源AI社区引发了广泛关注，被视为能够与Meta的Llama 2等国际主流开源模型竞争的重要力量，为开发者和研究者提供了一个功能强大且可自由使用的AI工具。

2024年02月05日

深度求索公司发布了其里程碑式的模型——DeepSeek-V2，这是一个混合专家（MoE）架构的大型语言模型。据技术报告披露，DeepSeek-V2总共拥有236亿活跃参数，但其总参数规模高达惊人的2360亿。该模型在性能上对标甚至在某些方面超越了Meta发布的Llama 3 70B等国际顶尖模型，同时其推理成本显著降低，据称仅为Llama 3 70B的百分之一。这一技术突破主要归功于其创新的MLA注意力机制和MoE架构的深度优化。DeepSeek-V2的发布被业界视为中国在大模型技术领域取得的一项重大进展，展示了在模型架构创新和工程优化上的强大实力。

2024年05月

深度求索公司开源了其强大的代码模型DeepSeek-Coder-V2。该模型在多项权威代码能力基准测试中取得了领先成绩，例如在HumanEval测试中达到了90.2%的通过率，在MBPP测试中达到了83.4%的通过率。据资料显示，DeepSeek-Coder-V2支持超过300种编程语言，并拥有一个庞大的上下文窗口（128K令牌），使其能够处理非常复杂的代码库和编程任务。该模型融合了代码和自然语言的理解与生成能力，旨在成为软件开发者的智能编程助手。它的开源进一步巩固了深度求索在AI编程助手领域的竞争地位，为全球开发者社区提供了强大的工具。

2024年

深度求索公司持续推动其模型的开放与普及，坚持其模型对研究社区完全免费商用的政策。这一策略与同期一些国际主流AI公司逐渐收紧开源许可或转向闭源的趋势形成了对比。据行业观察，深度求索的开放策略迅速为其赢得了广泛的开发者用户基础和良好的社区声誉。其模型被全球范围内的企业、研究机构和独立开发者广泛采用，应用于代码生成、内容创作、教育、研究分析等多个场景。有观点认为，这种开放的生态策略不仅加速了AI技术的普及和创新，也为深度求索自身构建了强大的技术护城河和品牌影响力。

暂无评论，快来发表第一条评论吧！