大模型时代:ChatGPT开启通用人工智能浪潮》
龙志勇 黄雯
代序
- 大模型是大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质变。大模型是人工智能赖以生存和发展的基础。
- 人工智能大模型的“大”,是指模型参数至少达到1亿。但是这个标准一直在提高,目前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。
- 大模型可以定义为大语言模型,具有大规模参数和复杂网络结构的语言模型。与传统语言模型(如生成性模型、分析性模型、辨识性模型)不同,大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习语法、句法、语义等多层次的语言规律。[插图]
- 这些模型的共同特征是:需要在大规模数据集上进行训练,基于大量的计算资源进行优化和调整。大模型通常用于解决复杂的NLP、计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式。借助大模型,深度学习算法可以更好地处理这些任务,提高模型的准确性和性能。
- 比较上述人工智能的三个派别:符号学派依据的是抽象思维,注重数学可解释性;联结学派则是形象思维,偏向于仿人脑模型;行为学派是感知思维,倾向身体和行为模拟。
- 第一个里程碑:机器学习(ML)。机器学习理论的提出,可以追溯到图灵写于1950年的一篇论文《计算机器与智能》(Computing Machinery and Intelligence)和图灵测试。1952年,IBM的亚瑟·塞缪尔(Arthur Lee Samuel, 1901—1990)开发了一个西洋棋的程序。
- 支持向量机(网络)(SVM)
- 机器学习有别于人类学习,二者的应用范围和知识结构有所不同:机器学习基于对数据和规则的处理和推理,主要应用于数据分析、模式识别、NLP等领域;而人类学习是一种有目的、有意识、逐步积累的过程。
- 第二个里程碑:深度学习(DL)。深度学习是机器学习的一个分支。所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。
- 2006年,杰弗里·辛顿(Geoffrey Everest Hinton, 1947—)正式提出深度学习概念,其原理是通过单层的受限制玻尔兹曼机(RBM)自编码预训练实现神经网络训练。2006年也因此成为“深度学习元年”。
- 人脑必须用自然语言进行沟通,而只有1.5千克重的大脑,大约有860亿个神经元(通常被称为灰质)与数万亿个突触相连。
- 深度学习是建立在计算机神经网络理论和机器学习理论上的科学。它使用建立在复杂的网络结构上的多处理层,结合非线性转换方法,对复杂数据模型进行抽象,从而识别图像、声音和文本。在深度学习的历史上,CNN和循环神经网络(RNN)曾经是两种经典模型。
- 第三个里程碑:人工智能内容生成大模型。从2018年开始大模型迅速流行,预训练语言模型(PLM)及其“预训练—微调”方法已成为NLP任务的主流范式。
- 大模型利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调(instruction tuning)模型参数,实现下游任务的适配。
- 大模型以人工神经网络(ANN)为基础。1943年,心理学家麦卡洛克(Warren Sturgis McCulloch, 1898—1969)和数理逻辑学家、数学家皮茨(Walter Harry Pitts, Jr., 1923—1969)建立了第一个神经网络模型,即M-P模型。[插图]
- 1958年,计算机专家弗兰克·罗森布拉特(Frank Rosenblatt, 1928—1971)基于M-P模型,发明了包括输入层、输出层和隐藏层的感知机(perceptron)(参见图Ⅲ)。神经网络的隐藏层(位于输入和输出之间的层)最能代表输入数据类型特征。从本质上讲,这是第一台使用模拟人类思维过程的神经网络的新型计算机。
- 。大模型通过大量语料库训练获得的生成文本中,根据输入文本和生成的上下文生成合适的文本输出,学习词汇、句法结构、语法规则等多层次的语言知识,通过对大量样本进行学习,更多的计算资源的投入,包括正确和错误的文本样本,捕捉到语法和句法的统计性规律,形成一个词或字符的概率的预测能力,进而根据不同样本的预测错误程度调整参数,处理复杂的语境,最终逐渐优化生成的文本。
- 预训练+微调”大模型能显著降低AI工程化门槛,预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性,细分场景的应用厂商能够基于大模型通过零样本、小样本学习即可获得显著的效果,使得人工智能有望构建成统一的智能底座,AI+赋能各行各业。本轮的生成式AI有望从简单的内容生成,逐步达到具有预测、决策、探索等更高的认知智能。
- 大语言模型基于统计语言学的思想,在大量文本数据上进行自监督学习,利用自然语言中的统计性规律,涉及贝叶斯原理(Bayes theorem)和马尔可夫链(Markov chain)等数学工具、N元(N-gram)语言模型,
- 词嵌入(word embedding)是一种将词语映射到低维实数向量空间的技术,用于表示词语的语义信息。
- 。词向量表示是将词语映射到连续向量空间的技术,用于在模型中表示词语。
- 大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术手段,其本质是一个多步推理的过程。
- 在计算机语言中,有一个第四范式(4NF)概念,其内涵是逐步消除数据依赖中不合适的部分,使关系数据库模式的各关系模式达到某种程度的“分离”,即“一事一地”的模式设计原则。
- 大模型实际接收和学习的数据并不是传统文本,因为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所谓向量化的文本,就是模型对自然语言的压缩和总结。向量也因此成为大模型数据存储的基本单位和AI理解世界的通用数据形式
- 大模型泛化是指大模型可以应用(泛化)到其他场景,这一能力也是模型的核心。
- 针对泛化误差,通常采用迁移学习、微调等手段,在数学上就是权衡偏差和方差。
- 大模型植入了“控制论”人工反馈和强化学习机制。反馈是控制论中的基本概念,是指一个系统把信息输送出去,又把其作用结果返回,并对信息的再输出产生影响,起到控制和调节作用的过程。大模型构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,通过从外部获得激励来校正学习方向,从而获得一种自适应的学习能力。
- Transformer是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。
- 人类对知识的处理(knowledge processing)分为六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中,都能发挥一定的作用,为人类大脑提供辅助。
- 赫布理论是一个神经科学理论,描述了在学习过程中大脑的神经元所发生的变化,从而解释了记忆印痕如何形成。赫布理论描述了突触可塑性的基本原理,即突触前神经元向突触后神经元持续重复的刺激,可以导致突触传递效能的增加。以深度学习为核心的大模型的重要特征就是以人工智能神经网络为基础。因此,大模型是充分实践赫布理论的重要工具。
- 1966年,美国哈佛大学心理学家戴维·珀金斯(David N. Perkins, 1942—)提出“真智力”(true intelligence),并提出智商包括三种主要成分或维度:(1)神经智力(neural intelligence),神经智力具有“非用即失”(use it or lose it)的特点;(2)经验智力(experiential intelligence),是指个人积累的不同领域的知识和经验,丰富的学习环境能够促进经验智力;(3)反省智力(reflective intelligence),类似于元认知(metacognition)和认知监视(cognitive monitoring)等概念,有助于有效地运用神经智力和经验智力的控制系统。
- “生成主义的认知观,既不同于客观主义的经验论,也有别于主观主义的唯理论,实际上持有的是一种居于两者之间的中间立场:一方面,生成认知否认外部世界的预先给予性,强调世界是依赖于外在的知觉者的;另一方面,生成认知也不赞同观念论对于心智实在性的否定,强调具身性是心智和认知最为根本的特征。”[插图]
02 我是一个大模型
- 人工智能模型的工作分为训练(training)和推理(inference)两个阶段,在跟人类聊天时,模型处于推理阶段,此时其不再调整自己的参数,而是根据已经学习到的知识来进行预测和响应,以帮助人类完成各种各样的任务。
- ChatGPT使用了基于自回归(auto-regressive)的生成模型,也就是说,在生成每个token时,它都会考虑前面已经生成的token。这种方法可以保证生成文本的连贯性和语义一致性。同时,ChatGPT也使用了束搜索(beam search)等技术来计算多个概率较高的token候选集,生成多个候选响应,并选择其中概率最高的响应作为最终的输出。ji
- 如果只选择概率最高的token,生成的响应会比较保守和重复。因此,ChatGPT通常会使用温度(temperature)参数来引入一定程度的随机性,以使生成的响应更加丰富多样。
03 ChatGPT是怎样炼成的
- GPT系列模型用过的数据集有以下几类:维基百科、图书、杂志期刊、Reddit链接、Common Crawl和其他。
- 我们将预训练比喻为神经网络模型的练习题。在预训练期间,模型会根据预测结果进行反向传播,调整模型参数以提高模型的准确性。这个过程与做练习题类似,每一次训练都是为了让模型更好地掌握语言知识和技能,提高下一次预测的准确性。
- 当我们训练神经网络模型时,通常需要对模型的参数进行优化,以使模型在预测任务中表现得更加准确。这个过程被称为“反向传播”,核心思想是利用误差信号来更新模型参数,以让模型能够更好地拟合训练数据。
- 误差信号是指预测输出与实际输出之间的差异,也就是我们希望模型能够减小的损失函数。
- 通过反向传播和梯度下降算法的迭代,我们可以不断地调整模型参数,提高模型在训练数据上的表现,并为模型的预测任务提供更准确的结果。
- 检索式回答的内容固定可控、不会出事,生成式虽然显得智能,但几年前还经常出低级错误。
- 传统的分析型AI是通过训练数据来学习预测新数据的标签或值,而生成式AI则是通过学习数据的概率分布来生成新的数据。
- 生成式AI的技术不仅包括GPT,生成式对抗网络(GAN)也是生成式AI技术的代表性算法,其基本思想是同时训练两个神经网络:一个生成器网络和一个判别器网络。生成器网络用于生成假数据,判别器网络用于区分真实数据和生成的假数据。两个网络不断交替训练,直到生成器网络生成的假数据无法被判别器网络区分真假为止。GAN已经被广泛应用于图像生成、视频生成、音频生成等领域,例如图像生成应用Midjourney就采用了GAN技术。
- 杰弗里·辛顿本人则直言,早在1986年,他就在《自然》杂志上发表了自监督学习的语言模型成果,核心思想是预测句子的最后一个词,可以说是生成式大模型的鼻祖。
- BERT双向编码获得的信息量大,在传统的NLP单项任务(例如文本分类、命名实体识别等)有明显优势;而GPT始终坚持从左到右的生成式训练,因为生成式的语言输出有无限丰富的表达能力,有机会走向通用人工智能
- 上下文学习叫ICL(In-Context Learning),大模型基于用户在提示文本中给出的少量示例来进行预测。
- 监督学习是一种经典的机器学习方法,其目标是使用有标签数据集来训练一个模型,以使其能够对新的未标记数据进行预测。
- SFT监督微调是一种特定的迁移学习方法,与传统从零开始训练的监督学习有一些不同之处。它基于一个通用的预训练模型,使用少量有标签的数据集对模型进行微调,以适应特定任务的要求,而不是像监督学习一样从头开始训练一个模型。
- 在ChatGPT出现之后,理论上,其他模型可以抓取ChatGPT的高质量问答数据,作为新模型微调数据集的一部分。
- RLHF是一种通过人类反馈来指导模型学习的方法,而AlphaGo的RL是一种基于强化学习的自主学习方法,两者在奖励函数、数据来源和算法等方面都有明显的区别。
- RLHF与AlphaGo使用的强化学习算法都源自于经典的策略梯度(policy-gradient)分支,RLHF使用的是OpenAI自研的改进策略优化(PPO)算法,通过对比新旧策略来计算策略更新的方向和大小,并使用剪切范围来限制策略更新的大小,以确保在学习过程中不会引起太大的震荡。
- ICL是指大模型能够从输入的文本中理解和捕获语言结构、语义信息和上下文关系。坦率地说,业界现在并不知道其原理,甚至还有争议,怀疑ICL到底算不算一种学习。
04 大模型的未解之谜
- 据谷歌、斯坦福和DeepMind公司联合发表的《大语言模型的涌现能力》(Emergent Abilities of Large Language Models)论文说,许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须要指数级增长超过某个临界点,新技能才会突飞猛进。”
- 失控这两个字就是在说,群集系统是效率相对较低、不可预测、不可知、不可控的。
- 由于缺乏中心控制,群集系统存在明显的冗余问题和三不可(不可预测、不可知不可控)的缺点,但也有可适应、可进化、无限性和新颖性的优势。按照凯文·凯利的理论,我能通过内部神经元的个体进化,获得模型整体能力的涌现。
- 《失控》一书中提到,复杂系统的整体行为会从系统各部分个体的有限行为中涌现,但整体行为和个体行为之间并不是传统的因果逻辑关系。
- GPT-4有产生幻觉的倾向,即‘产生与某些来源无关的荒谬或不真实的内容’。
- 封闭域幻觉是指人类用户要求大模型仅使用给定背景中提供的信息,但大模型却创造了背景中没有的额外信息。
- 开放域幻觉是指大模型在没有参考任何特定输入背景的情况下,提供了关于世界的错误信息。”
- 《TruthfulQA:评估模型如何模仿人类的错误》
- 信息—模型—行动,这是三个步骤。
变革篇
- “技术由天才设计,由傻瓜操作。”经济史学家加文·赖特(Gavin Wright)曾这样说道。
- 在英格兰中部莱斯特市,一位名叫内德·卢德(Ned Ludham)的织布学徒工在被雇主责骂后失控,拿起锤子砸毁了一台纺织机。此后,他被追随者们称作“卢德王”或“卢德将军”,卢德运动由此得名。
- 虽然全社会的生产率在不断上升,但许多人的生活水平仍然停滞不前,甚至不断恶化。从整个社会来看,利益受损的人群比获益的群体要大得多。这段时期也被称为“恩格斯式停顿”(Engels’ pause),恩格斯曾对此进行过深入的研究,他认为“工业家在靠工人的痛苦致富”。
- 当产品价格降至需求弹性曲线的某个临界点时,其还能扩张产品的市场规模,把整个行业的蛋糕做大。但这也对技术改善生产率的幅度提出了更高的要求,正如麻省理工学院的经济学教授达龙·阿西莫格鲁(Daron Acemoglu)和波士顿大学的经济学教授帕斯卡尔·雷斯特雷珀(Pascual Restrepo)在论文中指出的,“真正的劳动替代风险并非来自高生产力的自动化技术,而是来自‘生产力一般般’的技术,这些技术虽然会被采纳并取代劳动力,但并不足以带来强大的生产力使能效应。”
- 做大蛋糕,才能吃到更多蛋糕。新岗位的就业数量与市场规模成正比,新技术要打开新市场,才能源源不断地增加新岗位,从而解决旧岗位被技术替代的失业问题。
- 在新技术发挥使能效应的过程中,有两个重要因素起到了关键的作用,分别是生产体系和人力教育对技术的主动适应。
- 当电气工程师针对电动机的特点,对工厂的传动和生产流水线进行重新设计之后,生产率才得到进一步提高,真正兑现工厂电气化的全部好处,这也促使更多的工厂行动起来。
- 在工业技术的发展过程中,产品的生产制造始于手工作坊,19世纪转移到工厂,20世纪初又转移到生产流水线,20世纪后半段进入到自动化组装线。
- 1991年,在《国家的工作》(The Work of Nations)一书中,罗伯特·赖克(Robert Reich)把这个时代的工作分成三类。第一类是叫“符号分析师”,包括经理人、工程师、金融分析师、律师、科学家、记者、咨询师等知识工作者。另外两类,一个是逐渐被计算机接管的常规工作,另一个是需要人际交流的面对面服务工作。在赖克看来,“符号分析师”是从新经济中受益最大的新阶层,他们具有批判性思维,拥有解决问题并与人沟通的能力,善于对数据和文本进行分析并获得洞见,因此属于最难被计算机取代的一类工作,目前仍然稀缺。
06 大模型与智力革命
- 根据布鲁姆教育目标分类法(Bloom’s taxonomy of educational objectives),人类对知识的处理(Knowledge Processing)有六个层次:记忆、理解、应用、分析、评价和创造。
- 法国著名哲学家、数学家笛卡尔认为科学是宏观的、自上而下的、机械的和决定论的,人类的认知通常依赖于观察和归纳、基于规则的逻辑推理等方法。
- 大模型生成内容的方式依赖于训练和统计,存在不确定性,可能会对传统人类知识造成污染。OpenAI曾考虑对人工智能生成内容进行水印标记,但并未找到可行的实施方法。因此,这个关于信任的挑战必须由人类自己来面对。
07 自然语言编程与脑机协作
- 在大模型的应用扩展性和灵活性方面,很快就能挖掘出大模型非常丰富的使用场景,有一个能力起到了至关重要的作用,那就是人类与大模型的交互方式——自然语言编程。
- 上下文学习、思维链等概念,就是提示工程背后的关键原理。提示工程,也正是大模型自然语言交互和编程的实现手段。提示,就是问题。
- 根据人类与大模型之间协作的过程,我们把“问商”分为两部分:1.初始阶段,3R任务授权法,Ask AI for help。2.跟进阶段,苏格拉底提问法,Question AI for better result。
- 在《高效能人士的七个习惯》一书中,史蒂芬·R.柯维(Stephen R.Covey)提出了任务授权的两种类型——指令型授权和责任型授权,并且重点描述和推荐了责任型授权的方法。这种授权类型要求双方就以下五个方面达成清晰、坦诚的共识,并做出承诺。1.预期成果。双方都要明确并理解最终的结果。要以“结果”,而不是以“方法”为中心。要投入时间,耐心、详细地描述最终的结果,明确具体的日程安排。2.指导方针。确认适用的评估标准,避免成为指令型授权,但是一定要有明确的限制性规定。事先告知对方可能出现的难题与障碍,避免无谓的摸索。要让他们自己为最后的结果负责,明确指导方针,放手让他们去做。3.可用资源。告知可使用的人力、财物、技术和组织资源以取得预期的成果。4.责任归属。制定业绩标准,并用这些标准来评估他们的成果。制订具体的时间表,说明何时提交业绩报告,何时进行评估。5.明确奖惩。明确告知评估后的结果。主要包括好的和不好的情况以及财物奖励、精神奖励、职务调整以及该项工作对其所承担的组织使命的影响。
- “S”意为具体的(Specific)。通过使用清晰、具体的语言,为对话定义明确的焦点,确保大模型理解当前的主题或任务,以生成更准确、更相关的回应。
- “M”意为可衡量的(Measurable)。如果能提供可衡量的约束条件,例如数字、客观标准,会帮助大模型更准确地给出你所期待的回应。
- “R”意为相关联的(Relevant)。对结果的描述,应该跟之前的角色设定、背景目的保持一致,体现相关性,提高聚焦度,避免大模型离题或分心,返回比较泛泛的内容
- Role、Result、Recipe
- 就像说服的艺术,它包含了高级的、心理主义的概念,如语气、暗示、关联、模因、风格、可能性和模糊性。这激发了一种拟人化的提示语编程方法,因为对“GPT模型如何对提示做出反应”的建模,涉及虚拟人类作者的建模。难怪OpenAI的卡帕斯会认为,提示工程师是研究大模型心理的心理学家。
- 助产术,或者“理智助产术”,是指古希腊哲学家教育家苏格拉底关于寻求普遍知识的方法。通过不断的提问,揭示对方思考的不足之处,从具体事例出发,逐步深入,最后走向某种确定的知识。
- 苏格拉底式的问题,可以分为4大类(参见图2.12):证据类、视角类、理由类、影响类。
- 大模型存在的两个问题:一是造假,当人类提出需要具体的示例和数据时,如果大模型找不到,可能会造假,因为模型的目标是满足人类的期望;二是数据不全,有些行业数据或企业内部数据,大模型并没有真正查阅。
- 大模型这种“文本预训练”+“文字接龙预测”的方法实现的是拟人化建模,沿袭了人类的特点。人的思考也不会一蹴而就,需要跟他人进行多轮思维碰撞、启发,才能越来越完善。
- 李克特提出的第一个问题:如何在人类和人工智能之间分配任务?谁委托这些任务,谁协调这些任务?
- 李克特提出的第二个问题是:谁来评估工作成果的质量?工作结果的问责,要不要牵扯把这个人工智能开发出来的人?
08 变革时代的韵脚
- 约八成劳动力会受到大模型的影响,他们手头工作任务的10%以上都会受到影响,而其中有19%的劳动力受影响的程度更大,占到他们工作任务的50%以上(
- 马克·吐温曾说:“历史不会简单重复,它会押着同样的韵脚。”
- GPT大模型满足通用技术的三个ti’wen核心标准:随着时间推移,技术不断改进,贯穿整个经济体系,能够催生互补性的创新。
应用篇
- 从创新理论角度,技术变革可能带来两种创新:渐进式创新和颠覆性创新
10 知识工作型应用
- 熵(Entropy)是一个用于描述系统混乱程度或无序性的物理量。在热力学中,熵被用于衡量系统状态的不确定性。通常情况下,自然过程中的熵会增加,这被称为熵增原理。这个概念也被广泛应用于信息论、生物学和社会科学等领域。
- 据统计,全球大约有3500万名数字游民,数字游民的平均年龄为40岁,30多岁的人占全球所有数字游牧民47%左右。
13 大模型应用的三重境界
- 信息量指的是在该业务环节中,需要阅读消化多少信息,信息量越高,大模型辅助人类的效果就越显著。容错率指的是在该业务环节中,允许错误出现的概率,容错率越高,错误造成的损失就越小,大模型的应用效果就越可控。
14 大模型产业拆解
- 相较于CPU,GPU具有大量的并行处理能力,特别适合处理深度学习中的大规模矩阵运算,能令模型的训练和推理过程获得显著加速。
- 人脸识别的主流算法DeepFace、FaceNet和ArcFace的参数规模在几百万到一亿之间,而大模型的参数规模则高达数十亿到千亿。
- 较大的显存有助于在GPU上容纳整个模型,从而避免频繁地从其他存储器中调用参数,降低训练和推理效率。
- 在多GPU或多节点的集群中,使用高速互联技术(包括英伟达的NVLink,即单节点8卡之间的通信机制,以及RDMA远程直接地址访问,即多节点之间的通信机制),可以比传统高速串行通信互联标准PCIe提供更高的通信带宽并降低延迟。
- Hopper系列的H100-SXM,计算能力达到1979万亿次16位浮点计算每秒(作为对比,索尼PlayStation5游戏机的GPU计算能力是10.28万亿次,A100是312万亿次),
- DGX CLOUD计算集群
- 跟传统以太网和TCP/IP协议相比,RDMA技术将数据直接从一个GPU节点的内存快速转移到另一个节点的内存中,绕开双方操作系统内核和CPU的处理,因而能达到高吞吐、低时延和低资源占用率的效果。
- 较常使用的框架有谷歌大脑开发的TensorFlow、Meta开发的PyTorch、百度开发的飞桨(PaddlePaddle)、阿里开发的PAI TensorFlow等。
- 抽象层:深度学习框架提供了一系列预定义的层、损失函数和优化器等组件,使开发者可以方便地搭建复杂的神经网络结构,而无需关心底层的数学和计算细节。
- 资源管理:深度学习框架负责管理计算资源(如CPU、GPU、内存等),以实现高效的计算和内存利用,这与操作系统管理硬件资源的角色相似。
- 基于分布式框架,吸引大模型开发者和提供商(参见图4.3),再进行云服务的集成和代理销售,是一种可行的商业模式。这也充分发挥出分布式框架的优势,不依赖最新、最强的硬件,可兼容多种底层硬件,从而降低大模型的训练和推理门槛和成本。
- 大模型的训练包括三个阶段:自监督预训练(Self-supervised pre-training)、监督微调(Supervised fine tuning)、人类反馈强化学习(RLHF)。
- 在大模型预训练阶段,需要的数据量极大但无需人类标注。数据可以通过购买、合作、抓取等方式获得,并进行数据清洗。此类工作通常由大模型提供商自行完成。
- 其后的两个阶段,即监督微调和强化学习阶段,都需要提供带人类标注的样本数据。
- 1.通过专业人员进行数据标注。参与标注的专业人员有两种:数据标注专业人员,经过标注工作的培训即可上岗;垂直行业专业人员,对学历和行业经验有较高要求。在ChatGPT训练阶段,OpenAI公司曾有几十位博士参与数据标注,编写对话的答案,或者对模型输出的答案进行评分,确保ChatGPT回答的逻辑尤其是垂直行业的专业性满足内容质量的要求。
- 标注业务的商业模式有两种:按条数收费和按项目收费。
- 2.搜集用户使用过程中的反馈。
- 在数据标注工具中,收集用户反馈是数据数量最大、性价比最高的。
- 他们把这些数据加入训练,大模型的性能和使用体验得到了提高,进一步吸引更多用户,收集到更多用户的数据,由此启动了数据飞轮——一种自我强化的循环过程
- 3.获取公域或三方数据。公开的互联网数据,或者其他产品的数据,均有可能作为数据标注的来源。需要注意的是,采用这类数据必须符合法律规定。
- 4.接入企业私域数据。
- Hugging Face则是最有影响力的在线模型库和社区。
- 聚焦生成式预训练大模型领域,主要需要关注大模型在以下几个方面的表现:■生成文本的质量:模型生成的文本是否流畅、连贯,是否与输入强相关、符合人类的预期,是否存在偏见或错误信息,可以通过人工评估来衡量。■零次迁移的学习能力:模型在没有接受特定任务训练的情况下处理相关问题的能力。这反映了模型的泛化能力和灵活性。■生成样本的多样性:模型生成的文本是否具有多样性,能否在相同输入的情况下给出多种合理的回应。这可以通过检查生成样本的不同程度来评估。■输入的容错性和鲁棒性:一个好的模型应当能够处理输入中的错误(如拼写错误、语法错误等),并且在面对攻击或敌对样本时保持稳定表现。■计算资源需求:模型在训练和推理阶段对计算资源(如GPU、内存等)的需求。较小的计算资源需求意味着更高的可扩展性和商业可行性。■可解释性和可审计性:这些特性有助于理解模型的工作原理,以及如何改进模型以减少偏见和错误。
- 利用水平高一级的大模型(GPT-4)给其他的大模型做评价,是一种简便高效的方法。在Vicuna的实践中,团队成员对GPT-4的评价结果进行人肉审核(human in the loop),确保评价的合理性和有效性。
- 闭源和开源两类大模型的特点和能力,要想把这些能力在实际场景中发挥出来,还需要在大模型的产品化和商业化阶段向企业客户或应用开发者提供API能力调用,包括模型推理、微调训练、强化学习训练、插件库、私域模型托管等。
- ChatGPT短期内的收入有3种可能:(1)当前,ChatGPT Plus按月订阅付费,20美元/月。(2)插件库上线后,有机会通过软件商店的苹果税模式(苹果公司对开发者收入抽成30%),在插件库中的三方插件(例如订票、订酒店、订餐、购物、虚拟消费等)抽取提成。(3)同时,可以在对话中插入个性化的广告,获得后向收入。目前New Bing已经在试水投放此类广告
- 大模型推理成本CPQ(英文全称Cost per Query,即每次问答成本)
15 关于大模型产业的对话:第1集
- 要实现更大更快的分布式集群,目前有两个瓶颈或突破口:一是云服务商数据中心的核心网带宽,要从老的以太网升级到新的标准;二是软件方面,深度学习框架要配合
- 别看推理GPU规格要求不高,但未来应用普及之后,推理的需求量会非常大,会远远超过训练量,所以推理芯片的市场潜力很大。
- 所谓的某某某原生应用,无论是移动原生应用、云原生应用还是大模型原生应用,都在说一个规律——当某一项新技术出来之后,传统应用往往只把新技术嵌入进来作为补充,无法100%发挥新技术的优势,需要有一个或几个应用,从头开始就围绕新技术而设计,带来突破性的价值,然后引发更多的开发者追随,这就是原生应用了。
- 。模型即内容,模型本身会成为应用里面的重要内容。从移动互联网时代的PUGC(英文全称Professional Generated Content+User Generated Content,即专业用户生产内容)到大模型时代的PUGM(英文全称Professional User Generated Model,即专业用户生成模型),可能会成为大模型原生应用实现社区化、提高用户黏性的新竞争壁垒。
- ·GPT-4已成为行业焦点,做大模型究竟难不难?有多难?有哪些做法?■预训练的算力门槛很高。■企业做大模型有几种方案选择。■解决高端算力供应问题的方向。■国内大模型基础设施软硬件方向的机会。
- ·有人说ChatGPT是人工智能的iPhone时刻,大模型应用和生态跟移动互联网相比有哪些异同?■特殊之处1:推理带来的边际服务成本是大模型应用的重要影响因素。需要根据成本条件和业务场景,选对模型路线和商业模式。■相通之处1:通过Freemium免费模式获取用户,再转化到Premium付费模式。■特殊之处2:模型和数据是大模型应用的重要竞争壁垒。模型开源生态很重要,大语言模型正处于Stable Diffusion时刻。社区化和用户黏性手段,从移动互联网的PUGC过渡到大模型的PUGM。■相通之处2:ChatGPT类比iPhone时刻,从移动原生应用的发展史,讨论大模型原生应用有可能是什么。
16 寒来暑往几度:AI泡沫与机遇
- “做AI项目,客户第一次会提供一小撮数据样本让你理解业务数据;等你入场做POC测试时,会拿到批量的真实历史数据;等项目上生产环境后,你会碰到更实时的数据;等运行一段时间后又必然会遇到各种新的情况,例如调整客户业务的人群定位、外部行业政策有变导致业务环境也发生变化,等等。在这四个不同阶段,你所认知的客户数据特点和分布都会发生变化,而这个变化就意味着超参数要重新调整、网络结构可能要重新设计甚至对算法进行重新取舍……没办法,这就是做AI行业项目的命,很麻烦,也很折腾。”
- 深度学习界最让人担心的是,他自己不知道原理,而且他知道其他人也不知道(参见图4.27)。[插图]
- 无人车制造成本比普通出租车高,安全员成本至少不低于司机成本,两项加起来明显高于普通出租车的运营成本,商业化劣势明显,无法扩大运营。
- 滴滴公司70%的收入都付给了司机,在单价不变的情况下,原本要付给司机的70%收入,现在我能通过无人驾驶技术把这部分支出变成毛利。
- 抖音的全屏沉浸式加内容强推荐的设计,背后也体现了平台对内容创作生态的态度:让用户选择余地最小,平台控制力就最大。
17 关于大模型产业的对话:第2集
- 泛化(Generalization)是指AI能在新情况下正确理解环境并执行适当的动作。泛化能力越强,就越能适应新的条件,解决更多问题。
- 之所以说它是早期不完善的AGI,还是有不少缺点的。例如,它会出现幻觉、规划能力差、无法持续学习、缺乏长期记忆等问题,这些都是不如人类的地方
- 这次大模型还是比以往的深度学习有一点优势,它把最复杂的调参工作、最难的工程都放在了预训练阶段,集中许多高手解决一个大模型的问题。
- 群集智能系统因为独立、不可控,才产生了智能的突破,所以要想有突破,就要放弃以往所习惯的中心控制,要接受不可预测、不可控制的这种失控。
- 传说亚马逊的贝佐斯曾经画过一个飞轮图:亚马逊的买家越多,卖家就越主动到亚马逊上面来卖货;货品的选择越多,买家体验就越好,就有更多用户过来买。这是电商平台双边市场带来的飞轮效应,正向循环一旦形成,只要积累一定的动能,飞轮不需要企业发力就会自动转起来,越转越快。
- 都说云计算是数字时代的水电煤,但水电煤其实并没有飞轮效应,只有规模效应。
- 一对一的专业服务,教育、法律、医疗、心理咨询等,这些领域的一对一服务,老百姓有需求,但高质量专业资源很稀缺,价格昂贵,只有极少数人能负担得起。如果大模型把这块的成本价格降下来,会是一个新的市场。
- 当前大模型从文本中学到的能力主要集中在自然语言相关的认知智能领域,而在以图像识别为代表的感知智能和以用户行为预测为代表的决策智能领域,大模型则未必适合。
- 只能通过事后观察来分析浅层的规律,无法做到新技能涌现的可知、可预测、可控,也就很难提升新技能涌现的效率。
- 出错是一个必定发生的概率事件,需要结合不同行业场景中大模型的价值贡献、对错误的容忍度,通过流程设计和过渡方案来解决(例如无人驾驶的5G云代驾)。
后记
- 面对零成本但同质化的智能时,找到自己的好奇和兴趣、个性和真情。面对变化和不确定时,利用批判性思维、试错和迭代来解决问题。
发表回复