开源大语言模型index (开源大语言模型本地部署)

发布时间：2024-09-29 08:09:28来源：网络转载

北京时间9月26日消息，Intel在俄勒冈州波特兰举办的企业级技术会议上首次公开展示了下一代至强处理器ClearwaterForest的样品，预计命名为至强7系列。

核心技术

采用Intel18A工艺制造核心计算模块，这是该工艺的首个大规模量产产品。
基底模块采用Intel3-T工艺，添加了TSV硅通孔技术的3D堆叠封装。
继续采用至强6引入的LGA7259封装接口。

18A工艺

18A工艺被Intel视为反超台积电的关键节点。Intel宣布取消20A工艺节点，理由是18A进展非常顺利，缺陷密度(D0)已经小于0.40，可以投入量产，包括ClearwaterForest和消费级的低功耗版PantherLake。

挑战与机遇

目前，Intel面临着台积电的巨大竞争压力。ArrowLake酷睿Ultra200系列高性能处理器将依赖台积电3nm工艺。对于Intel来说，ClearwaterForest的成功至关重要，它代表了Intel在18A工艺上的实力。未来，Intel的成败可能取决于这款处理器。

总结

Intel Clear water Forest的发布标志着下一代服务器架构的开始。这款处理器采用了Intel领先的18A工艺，有望在性能和能效方面取得重大突破。Intel还面临着台积电的激烈竞争。ClearwaterForest的成功将为Intel赢得市场份额并保持在服务器市场领先地位提供关键机会。

4个大语言模型训练中的典型开源数据集

随着统计机器学习和自然语言处理算法的发展，大量开源数据集被构建用于大语言模型训练。本文将介绍几个典型的大语言模型训练开源数据集。一、Pile 数据集Pile 数据集由22个高质量子集构成，包括Common Crawl、Wikipedia、OpenWebText等。这些子集包含了多样化的文本，涵盖了不同领域和主题，提高训练数据集的多样性和丰富性。 Pile 数据集总大小约为825GB英文文本。二、ROOTS 数据集ROOTS 数据集是BigScience项目在训练BLOOM大语言模型时使用的数据集合。包含46种自然语言和13种编程语言，总计59种语言，整体数据集大小约1.6TB。三、RefinedWeb 数据集RefinedWeb 数据集由位于阿布扎比的技术创新研究院在开发Falcon大语言模型时同步开源。主要由从CommonCrawl数据集过滤的高质量数据组成，总数据量超过1PB。四、SlimPajama 数据集SlimPajama 数据集由CerebrasAI公司针对RedPajama进行清洗和去重后得到。原始RedPajama包含1.21万亿词元，经过处理后的SlimPajama数据集包含6270亿词元。以上就是对四个典型大语言模型训练开源数据集的介绍。

开源微服务编排框架：Netflix Conductor

简介：本文主要介绍netflix conductor的基本概念和主要运行机制。

本文主要介绍netflix conductor的基本概念和主要运行机制。

一简介

netflix conductor是基于JAVA语言编写的开源流程引擎，用于架构基于微服务的流程。它具备如下特性：

允许创建复杂的业务流程，流程中每个独立的任务都是由一个微服务所实现。

基于JSON DSL 创建工作流，对任务的执行进行编排。

工作流在执行的过程中可见、可追溯。

提供暂停、恢复、重启等多种控制模型。

提供一种简单的方式来最大限度重用微服务。

拥有扩展到百万流程并发运行的服务能力。

通过队列服务实现客户端与服务端的分离。

支持 HTTP 或其他RPC协议进行数据传送

二基本概念

Task是最小执行单元，承载了一段执行逻辑，如发送HTTP请求等。

System Task：被conductor服务执行，这些任务的执行与引擎在同一个JVM中。

Worker Task：被worker服务执行，执行与引擎隔离开，worker通过队列获取任务后，执行并更新结果状态到引擎。 Worker的实现是跨语言的，其使用Http协议与Server通信。

conductor提供了若干内置SystemTask:

功能性Task：HTTP：发送http请求JSON_JQ_TRANSFORM：jq命令执行，一般用户json的转换，具体可见jq官方文档KAFKA_PUBLISH: 发布kafka消息

流程控制Task：SWITCH（原Decision）：条件判断分支，类似于代码中的switch caseFORK：启动并行分支，用于调度并行任务JOIN：汇总并行分支，用于汇总并行任务DO_WHILE：循环，类似于代码中的do whileWAIT：一直在运行中，直到外部时间触发更新节点状态，可用于等待外部操作SUB_WORKFLOW：子流程，执行其他的流程TERMINATE：结束流程，以指定输出提前结束流程，可以与SWITCH节点配合使用，类似代码中的提前return语句

自定义Task：对于System Task，Conductor提供了WorkflowSystemTask 抽象类，可以自定义扩展实现。对于Worker Task，可以实现conductor的client Worker接口实现执行逻辑。

Workflow由一系列需要执行的Task组成，conductor采用json来描述Task的流转关系。

除基本的顺序流程外，借助内置的SWITCH、FORK、JOIN、DO_WIHLE、TERMINATE任务，还能实现分支、并行、循环、提前结束等流程控制。

3 Input&Output

Task的输入是一种映射，其作为工作流实例化的一部分或某些其他Task的输出。允许将来自工作流或其他Task的输入/输出作为随后执行的Task的输入。

Task有自己的输入和输出，输入输出都是jsonobject类型。

Task可以引用其他Task的输入输出，使用${}的方式引用。引用语法为json-path，除最基础的${}的值解析方式外，还支持其他复杂操作，如过滤等，具体见json-path语法。

启动Workflow时可以传入流程的输入数据，Task可以通过${}的方式引用。

Task实现原子操作的处理以及流程控制操作，Workflow定义描述Task的流转关系，Task引用Workflow或者其它Task的输入输出。通过这些机制，conductor实现了JSON DSL对流程的描述。

三整体架构

主要分为几个部分：

Orchestrator: 负责流程的流转调度工作；

Management/Execution Service: 提供流程、任务的管理更新等操作；

TaskQueues: 任务队列，Orchestrator解析出来的待执行Task会放到队列中；

Worker: 任务执行worker，从TaskQueues中获取任务，通过Execution Service更新任务状态与结果数据；

Database: 元数据&运行时数据库，用于保存运行时的Workflow、Task等状态信息，以及流程任务定义的等原信息；

Index: 索引数据库，用于存储执行历史；

四运行模型

1 Task状态转移

SCHEDULED：待调度，task放到队列中还没有被poll出来执行时的状态

IN_PROGRESS：执行中，被poll出来执行但还没有完成时的状态

COMPLETED：执行完成

FAILED：执行失败

CANCELLED：被中止时为此状态，一般出现在两种情况：手动中止流程时，正在运行中的task会被置为此状态；多个fork分支，当某个分支的task失败时，其它分支中正在运行的task会被置为此状态；

2 任务队列

任务的执行（同步的系统任务除外）都会先添加到任务队列中，是典型的生产者消费者模式。

任务队列，是一个带有延迟、优先级功能的队列；

每种类型的Task是一个单独的队列，此外，如果配置了domain、isolationGroup，还会拆分成多个队列实现执行隔离；

decider service是生产者，其根据流程配置与当前执行情况，解析出可执行的task后，添加到队列；

任务执行器(SystemTaskWorker、Worker)是消费者，其长轮询对应的队列，从队列中获取任务执行；

队列接口可插拔，conductor提供了Dynomite 、MySQL、PostgreSQL的实现。

3 核心功能实现机制

conductor调度的核心是decider service，其根据当前流程运行的状态，解析出将要执行的任务列表，将任务入队交给worker执行。

decide主要流程简化如下，详细代码见的decide方法：

其中，调度任务处理流程简化如下，详细代码见的scheduleTask方法：

decide的触发时机

最主要的触发时机：

新启动执行时，会触发decide操作

系统任务执行完成时，会触发decide操作

Workder任务通过ExecutionService更新任务状态时，会触发decide操作

流程控制节点的实现机制

1）Task & TaskMapper

对于每一个Task来说，都有Task和TaskMapper两部分:

Task：任务的执行逻辑代码，它的作用是Task的执行

TaskMapper：任务的映射逻辑代码，它通过Task的定义配置、当前实例的执行状态等信息，返回实际需要执行的Task列表

对于一般的任务来说，TaskMapper返回的是就是Task本身，补充一些执行实例的状态信息。但是对于控制节点来说，会有不同的逻辑。

2）条件分支(SWITCH)的实现机制

SWITCH用于根据条件判断，执行不同的分支。

实际上，该节点的Task不做任何操作，TaskMapper根据分支条件，判断出要走的分之后，返回对应分支的第一个Task。

getMappedTasks方法关键代码：

//待调度的Tasklist，最终返回结果List<Task>tasksToBeScheduled=newLinkedList<>();//evalResult是分支条件变量的值(case)//decisionCases是一个Map结构，key为分支的case值，value为对应分支的任务定义list（分支内的任务定义会有多个）//根据分支变量的实际值，获取对应分支的任务定义listList<WorkflowTask>selectedTasks=()(evalResult);//default的逻辑：如果获取不到对应的分支或者分支为空，则用默认的分支if(selectedTasks==null||()){selectedTasks=();}if(selectedTasks!=null&&!()){//获取分支的第一个(下标0)task，返回给deciderservice去做调度（decider会把任务添加到队列里，交给worker去执行）WorkflowTaskselectedTask=(0);//调用了deciderService的getTasksToBeScheduled方法，此方法里又获取到TaskMapper调用了getMappedTasks。这里采用了递归调用的方式，解析嵌套的TaskList<Task>caseTasks=()(workflowInstance,selectedTask,retryCount,());(caseTasks);()(hasChildren,true);}returntasksToBeScheduled;

3）并行(FORK)的实现机制

FORK用于开启多个并行分支。

实际上，该节点的Task不做任何操作，TaskMapper返回所有并行分支的第一个Task。 getMappedTasks关键代码：

//待调度的Tasklist，最终返回结果List<Task>tasksToBeScheduled=newLinkedList<>();//配置中的所有fork分支List<List<WorkflowTask>>forkTasks=();for(List<WorkflowTask>wfts:forkTasks){//每个分支取第一个TaskWorkflowTaskwft=(0);//调用了deciderService的getTasksToBeScheduled方法，此方法里又获取到TaskMapper调用了getMappedTasks。这里采用了递归调用的方式，解析嵌套的TaskList<Task>tasks2=()(workflowInstance,wft,retryCount);(tasks2);}returntasksToBeScheduled;

总的来说，分支(SWITCH)、并行(FORK)节点本身没有执行逻辑，其通过TaskMapper返回到实际要执行的Task，然后交给Decider Service处理。

重试的实现机制

重试和其延迟时间设置，都是借助任务队列的功能实现的。

重试：将任务重新添加到任务队列

重试的延迟时间：添加到任务队列时设置延迟时间，延迟时间过后，任务才能在队列中被poll出来执行

五完整性保障机制

由于调度过程中可能会出现因机器重启、网络异常、JVM崩溃等偶发情况，这些会导致的decide过程意外终止，流程执行不完整，展现出如流程一直运行中（实际已经没有在调度），或者其它状态错误等异常现象。

1 WorkflowReconciler

针对这种情况，conductor有一个WorkflowReconciler，会定期尝试decide所有正在运行中的流程，修复流程执行的一致性。此外，它还有一个作用是校验流程超时时间。

2 decideQueue

那么WorkflowReconciler是如何获取到当前运行中的流程呢，答案是decideQueue。 decideQueue和任务队列相同，也是一个具有延迟功能的队列，其存放的是正在执行中的流程的实例id。在任务开始执行时（包括新启动执行、重试执行、恢复执行、重跑执行等），会将实例id push到decideQueue中；在执行结束（成功、失败）时，会从decideQueue中删除实例id。

3 ExecutionLockService

WorkflowReconciler会定期尝试decide所有正在运行中的流程用于超时判断、维护流程一致性。但是流程本身正常执行也会触发decide，如果同一个执行同时触发两个decide，可能会导致状态混乱，执行卡住等问题。

conductor采用了锁来解决这个问题，其提供了单机LocalOnlyLock（基于信号量实现）、redis分布式锁（基于redission实现）、zookeeper分布式锁三种实现。

decide方法中最开始会尝试获取锁，如果获取失败则直接返回。通过锁来保障不会对同一个流程实例并发执行decide。

if(!(workflowId)){returnfalse;}

由于锁是可配置的，可能会导致一个误区：单台机器的话不用配置锁。其实单机也是需要配置锁的，因为WorkflowReconciler和流程正常执行会产生冲突，可能会导致偶发的流程状态混乱问题。

2023 年热门的大型语言模型 (LLMs)汇总

2023年热门大型语言模型汇总

国外大模型

国内更多模型

总结：2023年大模型领域蓬勃发展，国内外众多模型涌现，涵盖自然语言处理、图像识别等领域，推动技术进步和应用创新。未来挑战与机遇并存，期待技术更迭带来的智能变革。

本文链接：http://www.tiefuzhen.com/game/202409/135278.html

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。