上海AI实验室发布万亿参数科学模型Intern-S1-Pro_街坊资讯

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由上海AI实验室主导的突破性研究发表于2026年3月27日，论文编号为arXiv:2603.25040v1，研究团队首次构建了拥有万亿参数规模的科学多模态基础模型Intern-S1-Pro。这个庞大的AI系统不仅在通用能力上达到了业界顶尖水平，更是在科学专业领域展现出了前所未有的深度理解能力。

当我们谈论人工智能时，通常会想到ChatGPT这样的对话助手或者能够识别图片的视觉系统。但是，科学研究的复杂性远超日常应用。化学分子结构、生物基因序列、地球科学数据、材料特性分析——这些专业领域都有着自己独特的"语言"和思维模式。就像一个医生需要同时掌握解剖学、药理学和诊断技术一样，一个真正有用的科学AI助手也需要在多个专业领域都具备深厚的理解能力。

Intern-S1-Pro的诞生源于一个简单而深刻的观察：科学知识的复杂性需要足够庞大的模型容量来承载。研究团队发现，就像翻译员需要更强的语言能力才能处理更多语言对一样，处理多个科学领域的AI模型需要比处理单一领域的模型大90倍的参数量。这个发现促使他们将模型规模扩展到了万亿参数级别，成为首个达到这一规模的科学多模态基础模型。

这个AI系统的能力范围令人印象深刻。它不仅能够理解和生成自然语言文本，还能够处理各种科学图像、解析时间序列数据，甚至具备了自主规划和执行复杂科学工作流程的代理能力。更重要的是，它在超过100个专业科学任务上都表现出色，涵盖了化学、材料科学、生命科学和地球科学等关键领域。

一、突破性的架构设计：如何让万亿参数稳定运行

构建万亿参数规模的AI模型就像在建造一座前所未有的摩天大楼——你不能简单地按比例放大现有的设计图纸，而需要全新的工程解决方案来确保结构的稳定性。Intern-S1-Pro的成功很大程度上归功于其创新的架构设计。

研究团队面临的第一个挑战是如何从之前的Intern-S1模型平稳扩展到四倍规模。他们采用了一种叫做"专家扩展"的策略，可以把这个过程想象成一个餐厅从4个厨师扩展到16个厨师的过程。直接增加厨师数量可能导致混乱，但如果合理分组，让每组都包含经验丰富的资深厨师，就能保证服务质量的稳定性。

在这个比喻中，Intern-S1-Pro引入了"分组路由"机制。传统的AI模型就像一个无序的厨房，每次来订单时，所有厨师都争抢着处理，导致工作负载极不均衡。有些厨师忙得不可开交，而另一些厨师却无所事事。这种不平衡在万亿参数规模下会导致严重的计算资源浪费，甚至引起系统崩溃。

分组路由机制的巧妙之处在于将所有专家（相当于厨师）均匀分配到不同组别中，确保每个组都有顶尖的专家。当处理任务时，系统会从每个组中选择最适合的专家来协同工作。这种方法不仅确保了负载均衡，还显著提高了训练稳定性。实验结果显示，使用这种方法的模型性能可以略微超越扩展前的基准，而采用传统方法的性能会下降超过20个百分点。

另一个技术创新是"直通估计器"（Straight-Through Estimator）的应用。可以把这个技术想象成一个智能的学习反馈系统。在传统方法中，模型就像一个只能从成功案例中学习的学生，对于那些没有被选中处理任务的专家，系统无法提供有效的学习信号。直通估计器的作用就像给每个专家都配备了观察学习的能力，即使某个专家这次没有被选中，它也能通过观察整个处理过程来不断改进自己的技能。

这种设计的优势在前向计算和反向学习过程中表现不同。在前向处理时，系统仍然只激活最相关的专家，保持计算效率。但在学习阶段，所有专家都能获得反馈信号，确保整个系统的持续改进。研究团队还引入了温度参数来精确控制这个学习过程，在集中学习和均匀学习之间找到最佳平衡点。

模型的视觉处理能力也经过了精心设计。不同于固定分辨率的传统系统，Intern-S1-Pro采用了原生分辨率处理方式。就像一个摄影师会根据拍摄对象调整相机设置一样，这个系统会根据输入图像的实际分辨率进行处理，保留了高分辨率图像中的精细信息。这对科学应用尤为重要，因为科学图像往往包含大量关键细节。

二、革命性的位置编码：让AI理解连续性的物理世界

传统的AI模型处理信息的方式本质上是离散的，就像把连续的音乐切分成一个个音符。但物理世界是连续的——光具有波粒二象性，声音以连续波形传播，电磁信号具有独特的频谱特征。这种离散化处理方式在处理科学数据时会丢失重要的连续性信息。

Intern-S1-Pro引入了"傅里叶位置编码"（FoPE）技术，这就像给AI装上了能够理解波动现象的"物理直觉"。可以把传统的位置编码想象成给每个位置分配一个固定的门牌号，而傅里叶位置编码则像是给每个位置分配了一个完整的频谱"指纹"。

这个创新的核心在于数学上的傅里叶分析原理。傅里叶分析能够将任何复杂的信号分解为不同频率的正弦波组合，就像白光可以通过三棱镜分解为彩虹一样。在AI模型中应用这个原理，每个维度不再被视为单一频率的函数，而是被建模为多个频率成分的组合。

这种方法带来了两个重要优势。第一是信息分离度更高。传统方法就像把不同颜色的颜料混合在一起，很难再分离出原始成分。而傅里叶位置编码就像保持每种颜色的独立性，不同频率的信息不会相互干扰。第二是训练稳定性更好。在模型训练过程中，那些没有得到充分训练的频率成分会被自动识别并过滤掉，就像一个音响系统会自动过滤掉杂音一样。

更重要的是，这种方法显著改善了模型在处理不同长度序列时的表现。传统模型在训练时如果只见过短序列，处理长序列时往往表现不佳。FoPE技术通过其周期延拓特性，让模型在处理超出训练长度的序列时仍能保持良好的性能，就像学会了一首歌的旋律后，即使延长演奏时间也不会走调。

三、专门的时间序列处理：解读科学数据的时间密码

科学研究中有大量的时间序列数据——从天文观测到神经科学信号，从地震波形到生物电信号。这些数据的特点是变化率差异巨大，数据长度参差不齐，数值范围跨度极大。传统的处理方法就像用同一把尺子测量从分子到银河系的所有物体，显然不够精确。

Intern-S1-Pro开发了专门的时间序列处理模块，可以把它想象成一个智能的数据"翻译员"。这个翻译员首先会观察整个时间序列的特征，然后决定如何将其分解为更容易理解的片段。这个过程叫做"自适应子采样"，就像一个经验丰富的编辑会根据文章内容决定如何分段一样。

自适应子采样的工作原理很巧妙。对于一个可能包含数百万数据点的长时间序列，系统会根据信号的采样率和复杂度动态确定分块策略。如果信号变化缓慢，就采用较大的块；如果变化剧烈，就采用较小的块。这样既保证了重要信息不被遗漏，又将数据量控制在可处理的范围内。

处理流程分为几个阶段。首先是动态分块，系统像一个智能的图书管理员一样，将长长的时间序列"书籍"分割成合适大小的"章节"。接着是局部特征提取，每个章节内的细节特征被仔细分析和提取。最后是全局依赖建模，系统会分析不同章节之间的关联关系，理解整个时间序列的完整故事。

这个模块的处理能力范围从100个数据点到100万个数据点，覆盖了绝大多数科学应用场景。在天文学领域，它能处理长期的星体光变数据；在神经科学中，它能分析复杂的脑电信号；在地球科学里，它能解读地震波形和气候变化数据。更令人印象深刻的是，它还扩展到了新的应用领域，比如生理信号分析和生物声学识别，展现出了强大的泛化能力。

四、高质量科学数据的获取：从PDF中挖掘知识宝藏

训练一个科学AI助手最大的挑战之一就是获得高质量的科学图文配对数据。网络上虽然有大量图像，但大多数是生活照片或一般性图片，真正的科学图像相对稀少，而且往往缺乏详细准确的描述。这就像试图用烹饪杂志的图片来教会机器人做复杂的法式料理——图片是有的，但缺少详细的制作步骤和关键技巧。

研究团队的解决方案颇具创意：他们把目光投向了科学论文的PDF文档。科学PDF就像一个巨大的知识宝库，包含了大量高质量的实验图表、统计图形、结构示意图和公式推导。这些图像不仅信息密度高，而且往往伴随着详细的文字说明，是训练科学AI的理想素材。

团队开发了一套完整的PDF数据处理流水线。首先使用MinerU2.5技术进行版面分析，这个过程就像一个细心的图书馆员，能够精确识别文档中的各个元素——哪里是图片，哪里是表格，哪里是公式，哪里是正文。这种自动化识别的准确率非常高，能够将复杂的学术论文完美解构。

接下来是内容去重处理。由于同一个实验结果可能在多篇论文中被引用，系统使用感知哈希技术来识别和移除重复的视觉内容。这个过程类似于照片管理软件自动识别重复照片的功能，但更加精确和智能。

最有趣的是标题生成环节。团队设计了一个主题分类和模型路由机制，就像一个智能的写作助手分工系统。对于科学图像，系统会调用专门训练的InternVL3.5-241B模型来生成专业的、领域特定的描述。对于非科学图像，则使用CapRL-32B模型生成通用性描述。

这种标题生成的质量差异非常显著。传统的自然描述往往只有几十个词，内容简单，比如"显示实验结果的图表"。而新的标题生成系统能够产生平均1000字的详细描述，包含轴标签说明、数据趋势分析、实验条件描述、结果解释等丰富内容。这种详细程度的描述对训练科学AI至关重要，因为它教会了模型如何准确理解和描述科学内容。

为了进一步提高标题质量，团队还采用了多模板随机化提示策略，并引入了0.5B参数的文本质量判别器来过滤掉错误文本、重复表达和低信息密度内容。这个过程就像有一个专业的编辑在把关，确保最终产出的训练数据既准确又有用。

整个流水线处理了涵盖生命科学、化学、地球科学和材料科学的大规模PDF语料库，最终产生了约270B token的高质量科学图文配对数据。这个数据集不仅规模庞大，质量也达到了前所未有的高度。

五、科学数据与通用数据的完美融合

将科学数据与通用数据整合到一个模型中训练，就像尝试让一个人同时成为严谨的科学家和灵活的文学家。这两类数据具有截然不同的特征：科学数据逻辑性强、结构化程度高，而通用数据更注重语义表达和语言多样性。直接混合训练往往会导致"分布偏移"和"负迁移"现象，就像两种不同的思维方式在大脑中冲突，导致推理过程出现混乱。

研究团队采用了三大技术策略来解决这个挑战。第一个策略是结构化科学数据转换。科学数据通常以高度结构化的格式存在，比如来自PubChem数据库的化学分子信息。团队没有简单地将这些数据线性化为文本，而是开发了两种方法：模板构建和任务形式转换。

模板构建就像为不同类型的科学数据设计专门的"翻译模板"。通过这些模板，异质的输入输出对被转换为语法正确的叙述性文本，确保科学数据与通用数据在表达风格上保持一致。这种转换既保证了语义的连贯性，也最大程度地减少了信息损失。

对于那些缺乏直观语义的抽象输出，比如数值矩阵或列表形式的结果，团队结合了特定领域的科学先验知识，将数字符号映射为具有实际科学意义的描述性答案。这让模型能够跨越符号屏障，更好地理解数据背后的科学逻辑和原理。

第二个策略是科学数据多样化。科学数据往往具有高重复性特征，比如相似的蛋白质序列可能在训练数据中大量出现，这容易导致模型过拟合。为了解决这个问题，团队实施了提示多样化机制。对同一个科学概念，系统会生成数十种不同的指令表达方式，在保持核心科学知识不变的前提下，扩展模型的泛化边界。

同时，针对科学任务输出往往过于简单的问题（比如仅包含数值或简单结论），团队引入了回展机制。通过结合科学先验知识和强基础模型的辅助生成，系统能够将简单的知识记忆转换为完整的逻辑推演链条。这种做法显著增强了模型在复杂科学场景中的零样本推理能力。

第三个策略是系统提示隔离。尽管进行了数据转换和多样化处理，科学数据和通用数据之间的差异仍可能在训练阶段引发冲突。为了缓解这种冲突并减少负面影响，团队采用了系统提示隔离策略。在训练周期中，系统会为科学数据和通用数据注入互斥的系统级前缀，为模型创建独立的上下文处理环境。

这种策略的效果就像给不同类型的思考任务创建了专门的"思维空间"。当处理科学问题时，模型会自动进入"科学家模式"，运用严谨的逻辑思维；当处理通用任务时，会切换到"通用模式"，发挥语言理解和创造能力。这种环境隔离有效减少了数据冲突，提高了模型稳定性，增强了训练效果。

六、万亿参数规模下的强化学习训练

将强化学习应用到万亿参数的混合专家模型上，就像尝试协调一个由数千名专家组成的超大型研究团队。每个专家都有自己的专长领域，但要让整个团队高效协作，需要解决复杂的内存管理、计算分配和通信协调等挑战。

Intern-S1-Pro相比前代模型的专家数量增加了4倍，但激活的参数数量保持相对稳定。这种设计虽然提高了模型的专业化程度，但也带来了巨大的内存压力。即使在专家并行计算的条件下，庞大的专家层参数和激活值仍然会造成显著的内存负担。

为了在如此大规模下进行稳定的强化学习训练，团队采用了FP8量化技术。但是，极端的稀疏性使得低精度训练需要格外小心，稍有不慎就会导致性能下降。研究团队借鉴了之前工作的经验，认识到训练引擎和推理引擎之间的差异是强化学习训练不稳定的主要原因。

团队实施了一个综合性的稳定化框架，这个框架就像一个精密的质量控制系统。首先，他们进行了系统性的算子级别对比，逐一检查LMDeploy推理引擎和XTuner训练引擎之间的数值差异。他们发现了几个数值敏感的组件，包括RMSNorm、路由softmax和位置编码应用，这些组件对精度差异特别敏感。

通过在这些关键算子中减少精度差距，确保推理分布在训练过程中得到忠实反映。此外，为了保证专家路由的一致性，团队实施了推理路由重放机制。对于每个token，系统会记录推理阶段选择的专家索引，并在策略更新时重放相同的路由决策。

为了避免专家索引传输成为带宽和延迟瓶颈，团队巧妙地通过Ray对象引用来传输路由轨迹，而不是通过处理响应token的HTTP通道。这种设计既保证了路由一致性，又避免了通信开销。

在混合精度策略上，团队采用了针对高度稀疏MoE模型的定制方案。他们观察到专家MLP层占据了最大的内存占用，但其GEMM操作相对容易承受精度降低。因此，他们只将专家线性层量化为FP8，保持非专家组件使用BF16精度，并使用FP32的语言模型头来提高对数概率估计的数值准确性。

这种设计遵循了一个重要原则：对数概率估计中的小误差可能被策略梯度更新放大。因此，在对精度敏感的计算图部分保持高精度，既获得了FP8的大部分内存和吞吐量优势，又避免了敏感部分的不必要性能下降。

最后，团队借鉴了IcePop的思路，使用双重要性采样比率来修改REINFORCE目标函数。第一个重要性采样比率校正训练-推理分布不匹配，第二个比率纠正训练期间小批次更新引入的离策略偏差。通过掩蔽那些训练-推理差异过大的token，系统能够抑制不可靠的学习信号。

这些综合技术的应用使得FP8混合精度强化学习在实践中达到了与BF16训练相当的行为表现，为万亿参数规模的模型训练开辟了可行路径。

七、全面的性能评估：科学AI的新标杆

Intern-S1-Pro的性能评估就像是对一位博学多才的科学家进行全方位的能力测试。评估涵盖了科学任务和通用任务两大类，包括纯文本和多模态设置，总共涉及数十个具有挑战性的基准测试。

在科学任务评估中，Intern-S1-Pro展现出了令人瞩目的领先优势。在SciReasoner科学推理基准上，该模型获得了55.5分，远超Gemini-3-Pro的14.7分和GPT-5.2的13.6分。这个巨大的性能差距充分展示了专门针对科学领域优化的重要性。

SciReasoner涵盖了十个不同的科学学科，包括物理学、化学和医学等，共149个具体任务。这些任务的设计不仅考察模型的知识储备，更重要的是测试其科学推理能力。Intern-S1-Pro的出色表现表明，它不仅掌握了广泛的科学知识，更能够进行复杂的跨学科推理。

在专业的科学多模态任务SFE基准上，Intern-S1-Pro获得了52.7分的成绩。SFE基准包含830个经过验证的视觉问答对，跨越66个多模态任务，涵盖五个高价值科学学科。这个基准使用真实的科学数据格式来探测模型在感知、理解和高级推理方面的认知能力。

在化学领域的SmolInstruct基准上，Intern-S1-Pro取得了74.8分的显著成绩，远超其他模型。SmolInstruct是一个大规模的化学专用数据集，涵盖14个选定任务和超过300万个样本，覆盖了有意义的化学应用，包括正向合成和性质预测。这个成绩证明了模型在复杂分子科学推理方面的卓越能力。

材料科学领域的表现同样出色。在MatBench基准上，Intern-S1-Pro获得了72.8分，这个基准提供了13个机器学习任务的精选测试套件，用于材料性质预测，数据集规模从312到132,000个样本不等。这些任务来自10个密度泛函理论和实验来源，标准化了对不同晶体和分子材料性质的模型性能评估。

在生物学相关任务上，模型同样表现优异。MicroVQA专注于基于显微镜的研究，包含1,042个专家策划的多选题，跨越不同的成像模式。Intern-S1-Pro在这个基准上获得了63.3分，展示了其在生物工作流程中的专家图像理解、假设生成和实验提议等关键推理能力。

时间序列处理能力的评估结果令人印象深刻。在SciTS基准的子集测试中，Intern-S1-Pro在多个任务上都获得了远超其他模型的F1分数。比如在EAU01任务上获得99.5分，在ASU01任务上获得98.0分，在BIU03任务上获得88.3分。这些结果证明了专门的时间序列处理模块在捕获复杂时间动态方面的有效性。

在通用任务方面，Intern-S1-Pro同样保持了强劲的竞争力。在MMMU-Pro知识推理基准上获得72.8分，在MMLU-Pro上获得86.6分，在高难度的AIME-2025数学推理任务上获得93.1分。这些成绩表明，模型在专注科学能力提升的同时，并没有牺牲通用能力。

特别值得关注的是模型在代理任务上的表现。在GAIA基准上获得77.4分，在τ?-Bench上获得80.9分，在ScreenSpot V2上获得93.6分。这些成绩标志着模型在实际应用场景中的多步规划和环境交互能力达到了新的高度。

八、专业化通才的优势：更大更通用反而更专业

在AI模型设计中存在一个有趣的争论：是应该为每个专业领域训练专门的模型，还是构建一个能够处理多个领域的通用模型？传统观点认为，专业化的模型在特定领域会表现更好，就像专科医生在自己领域比全科医生更专业一样。

但是，Intern-S1-Pro的实验结果挑战了这种直观认识。研究团队通过与专门的生物学模型Biology-Instruction的详细对比，发现了一个令人惊讶的现象：在相同的训练数据条件下，更大规模的通用模型反而在专业任务上表现更优。

这个对比实验的设计很有说服力。两个模型使用了相同的底层数据集，研究团队只是为Intern-S1-Pro升级了数据格式，使文本表达更加流畅，但核心的生物学信息保持完全一致。在这种控制条件下，Intern-S1-Pro在绝大多数生物学任务上都显著超越了专业的Biology-Instruction模型。

具体的性能差异令人印象深刻。在蛋白质荧光预测任务上，Intern-S1-Pro获得78.14分，而Biology-Instruction只有2.57分。在蛋白质功能预测任务上，前者获得72.70分，后者只有19.79分。在RNA同工型任务上，Intern-S1-Pro获得82.95分，Biology-Instruction为59.01分。平均而言，Intern-S1-Pro的综合得分为52.45，比Biology-Instruction的39.24高出13.21分。

这种现象的原理可以用"智能增强效应"来解释。更大规模的模型具有更强的通用推理能力，这种能力能够帮助模型更好地理解和利用专业数据。就像一个具有强大逻辑思维能力的通才，即使在接触新的专业领域时，也能比缺乏这种基础能力的专业人士更快地掌握和运用专业知识。

这个发现对AI模型设计具有重要启示。它表明，通用能力和专业能力之间不是简单的此消彼长关系，而是相互促进的协同关系。强大的通用智能基础能够为专业任务提供更好的支撑，让模型能够从相同的专业数据中提取和利用更多有价值的信息。

这种"专业化通才"的概念代表了AI发展的一个新方向。与其为每个领域单独训练专业模型，不如构建一个具有强大基础能力的大规模通用模型，然后通过高质量的专业数据进行训练。这种方法不仅在单个领域内表现更优，还能实现跨领域的知识迁移和融合，为解决复杂的跨学科问题提供了可能。

九、技术创新的深远影响

Intern-S1-Pro的技术创新不仅体现在最终的性能表现上，更在于它为AI领域探索出了多个具有普遍价值的技术路径。这些创新就像建筑工程中的新材料和新工艺，不仅让当前的"建筑"更加坚固美观，也为未来的"建筑"提供了更多可能性。

分组路由机制的创新意义远超其在Intern-S1-Pro中的应用。这种负载均衡策略为大规模MoE模型的训练提供了新的解决方案。传统的Top-K路由策略在专家数量增加时容易导致负载不均衡，就像一个工厂的生产线，有些工人忙得团团转，有些工人却无事可做。分组路由通过强制性的负载均衡设计，确保了所有计算资源的充分利用，这对于构建更大规模的AI系统具有重要参考价值。

直通估计器在稀疏专家路由中的应用也开创了新的技术思路。这种技术解决了稀疏模型训练中的一个根本性问题：如何让未被激活的专家也能获得学习机会。这个思路可以扩展到其他需要稀疏激活的模型架构中，为构建更高效的大规模模型提供了新的工具。

傅里叶位置编码代表了位置编码技术的重要进步。传统的位置编码方法本质上是离散的，而FoPE通过引入连续性的物理原理，让AI模型能够更好地理解和处理具有波动特性的数据。这种技术不仅适用于科学数据处理，在音频、视频、信号处理等多个领域都有潜在应用价值。

时间序列处理模块的自适应子采样策略也具有广泛的适用性。这种根据数据特征动态调整处理策略的思路，可以扩展到其他需要处理变长、变复杂度数据的场景中。无论是自然语言处理中的长文档理解，还是计算机视觉中的多尺度图像处理，都可以借鉴这种自适应策略。

高质量科学数据的构建流程更是为AI训练数据的准备开辟了新途径。从PDF文档中自动提取和生成高质量图文配对数据的方法，不仅解决了科学AI训练数据稀缺的问题，也为其他专业领域的AI系统提供了数据获取的新思路。法律、医学、工程等领域都可以采用类似的方法来构建高质量的专业训练数据。

混合精度强化学习在万亿参数规模下的成功应用，证明了在保持训练效率的同时实现高质量训练的可能性。这种技术路径为未来更大规模模型的训练提供了可行的解决方案，对于推动AI技术的规模化发展具有重要意义。

更重要的是，"专业化通才"这一设计理念的验证，可能会改变整个AI领域的发展方向。与其为每个专业领域单独开发AI系统，不如构建少数几个高质量的通用系统，然后通过专业数据进行针对性训练。这种方法不仅提高了资源利用效率，也为实现真正的通用人工智能提供了新的路径。

说到底，Intern-S1-Pro的成功不仅在于它在特定任务上的优异表现，更在于它证明了一个重要观点：在AI发展的现阶段，规模、质量和策略的完美结合能够产生远超预期的协同效应。这个万亿参数的科学AI助手，既是当前技术水平的集大成者，也是未来AI发展方向的探路者。

对于普通人来说，Intern-S1-Pro代表着AI技术在专业领域应用的新高度。它不仅能够辅助科学家进行复杂的研究工作，提高科学发现的效率，也为AI技术在教育、医疗、工程等其他专业领域的应用提供了重要参考。随着这类技术的不断发展和普及，我们有理由相信，AI将在更多领域成为人类的得力助手，加速知识的创造和传播。

未来的AI系统可能不再是单一功能的工具，而是像Intern-S1-Pro这样的多能力融合体，既具备广泛的通用智能，又在特定领域具有专业深度。这种发展趋势预示着人工智能技术正在向更加实用、更加智能的方向发展，最终可能实现真正意义上的通用人工智能。

Q&A

Q1：Intern-S1-Pro的万亿参数规模是如何实现的？

A：Intern-S1-Pro通过专家扩展策略从前代模型扩展到万亿参数规模。具体采用了分组路由机制，将所有专家均匀分配到不同组别中，每个组都包含经验丰富的顶级专家。这种方法类似于餐厅合理分配厨师，确保每个组都有资深人员，从而保证了训练稳定性和负载均衡。

Q2：为什么Intern-S1-Pro在科学任务上比专业模型表现更好？

A：研究发现更大规模的通用模型反而在专业任务上表现更优，这被称为"专业化通才"现象。强大的通用推理能力能够帮助模型更好地理解和利用专业数据，就像具有强大逻辑思维的通才在接触新领域时比缺乏基础能力的专业人士掌握得更快。实验显示Intern-S1-Pro在生物学任务上平均比专业模型高出13.21分。

Q3：Intern-S1-Pro如何处理不同类型的科学数据？

A：Intern-S1-Pro采用了多种专门技术来处理科学数据。对于图像，使用原生分辨率处理保留精细信息；对于时间序列，开发了自适应子采样模块根据信号特征动态调整处理策略；对于文本，通过结构化数据转换和系统提示隔离来融合科学数据和通用数据，确保不同类型数据都能得到最优处理。

街坊秀

上海AI实验室发布万亿参数科学模型Intern-S1-Pro

热门标签

热门排行

最新更新

友情链接