当前位置: 首页 > news >正文

钦州市建设网站东莞企业网站多少钱

钦州市建设网站,东莞企业网站多少钱,网站功能策划,密云网站建设服务在上一个视频中#xff0c;您被介绍到了生成性AI项目的生命周期。 如您所见#xff0c;在您开始启动您的生成性AI应用的有趣部分之前#xff0c;有几个步骤需要完成。一旦您确定了您的用例范围#xff0c;并确定了您需要LLM在您的应用程序中的工作方式#xff0c;您的下…在上一个视频中您被介绍到了生成性AI项目的生命周期。 如您所见在您开始启动您的生成性AI应用的有趣部分之前有几个步骤需要完成。一旦您确定了您的用例范围并确定了您需要LLM在您的应用程序中的工作方式您的下一步就是选择一个要使用的模型。 您首先的选择将是使用现有的模型还是从头开始训练您自己的模型。在某些特定情况下从头开始训练您自己的模型可能是有利的您将在本课程后面了解到这些情况。 但是通常情况下您将使用现有的基础模型开始开发您的应用程序。许多开源模型都可供像您这样的AI社区成员在您的应用程序中使用。一些主要框架的开发者如用于构建生成性AI应用的Hugging Face和PyTorch已经策划了您可以浏览这些模型的中心。 这些中心的一个非常有用的特点是包括模型卡片描述了每个模型的最佳用例、如何进行训练以及已知的限制的重要细节。您将在本周结束时的阅读材料中找到这些模型中心的一些链接。 您选择的确切模型将取决于您需要执行的任务的细节。Transformers模型架构的变体适用于不同的语言任务这主要是因为模型训练方式的差异。为了帮助您更好地了解这些差异并发展关于哪个模型用于特定任务的直觉让我们仔细看看大型语言模型是如何被训练的。有了这些知识您将更容易浏览模型中心并找到最适合您用例的模型。 首先让我们从高层次看看LLMs的初始训练过程。这个阶段通常被称为预训练。 如您在第1课中所见LLMs编码了语言的深度统计表示。这种理解是在模型的预训练阶段发展起来的当模型从大量的非结构化文本数据中学习时。这可以是GB、TB甚至是PB大小的非结构化文本。这些数据来自许多来源包括从互联网上抓取的数据和为训练语言模型专门组装的文本语料库。 在这个自监督学习步骤中模型内化了语言中存在的模式和结构。这些模式然后使模型能够完成其训练目标这取决于模型的架构正如您很快将看到的那样。在预训练期间模型权重得到更新以最小化训练目标的损失。编码器为每个令牌生成一个嵌入或向量表示。预训练也需要大量的计算和使用GPUs。 请注意当您从公共网站如互联网抓取训练数据时您通常需要处理数据以提高质量解决偏见并删除其他有害内容。由于这种数据质量策划通常只有1-3%的令牌用于预训练。当您估计需要收集多少数据时如果您决定预训练您自己的模型您应该考虑这一点。 本周早些时候您看到Transformers模型有三种变体仅编码器、编码器-解码器模型和仅解码器。 每一个都是基于一个不同的目标进行训练的因此学会执行不同的任务。 仅编码器模型也被称为自动编码模型它们使用遮罩语言建模进行预训练。 这里输入序列中的令牌被随机遮罩训练目标是预测遮罩令牌以重构原始句子。 这也被称为去噪目标。 自动编码模型产生了输入序列的双向表示这意味着模型对令牌的整个上下文有了解而不仅仅是之前的单词。仅编码器模型非常适合从这种双向上下文中受益的任务。 您可以使用它们执行句子分类任务例如情感分析或令牌级任务如命名实体识别或单词分类。自动编码模型的一些众所周知的示例是BERT和RoBERTa。 现在让我们看看仅解码器或自回归模型它们使用因果语言建模进行预训练。这里训练目标是基于之前的令牌序列预测下一个令牌。 预测下一个令牌有时被研究人员称为完整的语言建模。基于解码器的自回归模型遮罩输入序列只能看到直到问题令牌的输入令牌。 模型不知道句子的结尾。然后模型一个接一个地迭代输入序列来预测下一个令牌。 与编码器架构相反这意味着上下文是单向的。 通过学习从大量示例中预测下一个令牌模型建立了语言的统计表示。这种类型的模型使用原始架构的解码器组件而不使用编码器。 仅解码器模型通常用于文本生成尽管较大的仅解码器模型显示出强大的Zero shot推理能力并且通常可以很好地执行一系列任务。GPT和BLOOM是基于解码器的自回归模型的一些众所周知的示例。 Transformers模型的最后一个变体是使用原始Transformers架构的编码器和解码器部分的序列到序列模型。预训练目标的确切细节因模型而异。一个受欢迎的序列到序列模型T5使用Span corruption跨度腐败预训练编码器这遮罩随机输入令牌序列。那些遮罩序列然后被替换为一个唯一的哨兵令牌这里显示为x。哨兵令牌是添加到词汇表的特殊令牌但不对应于输入文本的任何实际单词。 解码器然后被分配自回归地重建遮罩令牌序列。输出是哨兵令牌后面的预测令牌。 您可以使用序列到序列模型进行翻译、摘要和问答。当您有一体文本作为输入和输出时它们通常是有用的。除了T5您将在本课程的实验室中使用另一个众所周知的编码器-解码器模型是BART不是Bird。 总之这是一个快速比较不同的模型架构和预训练目标的目标。自动编码模型使用遮罩语言建模进行预训练。它们对应于原始Transformers架构的编码器部分通常与句子分类或令牌分类一起使用。 自回归模型使用因果语言建模进行预训练。这种类型的模型使用原始Transformers架构的解码器组件并经常用于文本生成。 序列到序列模型使用原始Transformers架构的编码器和解码器部分。预训练目标的确切细节因模型而异。T5模型使用span corruption跨度腐败进行预训练。序列到序列模型通常用于翻译、摘要和问答。 现在您已经看到了这些不同的模型架构是如何被训练的以及它们适合的特定任务您可以选择最适合您用例的模型类型。还有一件事要记住的是任何架构的较大模型通常更有能力很好地执行它们的任务。研究人员发现模型越大就越有可能在没有额外的上下文学习或进一步训练的情况下按照您的需要工作。这种观察到的模型能力随大小增加的趋势近年来推动了更大模型的发展。 这种增长是由研究中的拐点驱动的如高度可扩展的Transformers架构的引入用于训练的大量数据的访问以及更强大的计算资源的开发。 这种模型大小的稳定增长实际上使一些研究人员推测LLMs存在一个新的摩尔定律。像他们一样您可能会问我们是否可以只是继续添加参数来增加性能并使模型更智能这种模型增长可能会导致什么 虽然这听起来很棒但事实证明训练这些巨大的模型是困难和非常昂贵的以至于不断地训练更大和更大的模型可能是不可行的。让我们在下一个视频中仔细看看与训练大型模型相关的一些挑战。 参考 https://www.coursera.org/learn/generative-ai-with-llms/lecture/2T3Au/pre-training-large-language-models
http://www.yutouwan.com/news/224636/

相关文章:

  • 做网站的一个黑点符号做网站要用什么语言
  • 徐州制作网站的公司有哪些公主坟网站建设
  • 自助网站建设开发asp.net网站开发试题
  • 手机网站产品展示模板网站建设从化
  • c#网站开发技术wordpress默认排序
  • 医院网站后台管理系统登录网站关键词优化应该怎么做
  • 网页设计和网站开发有什么区别电商网站建设与运营方向就业前景
  • 芜湖门户网站建设多少钱如何提高权重
  • 中国建设银行宁夏分行网站手机网站建设哪里好
  • 美食网站的建设目的交易所网站开发
  • 内江市规划建设教育培训中心网站企业网站建设服务电话
  • 网站建设的意义与价值长安网站建设公司
  • 开封网站开发大连网站建设制作公司
  • 南博网站建设福建省 园区网互联及网站建设 网络部分题目
  • 如何看还在建设的网站有模版之后怎么做网站
  • 货运代理网站模板网络设置了代理怎么关闭
  • 给人做ppt的网站吗高清图片素材网
  • 宣城网站开发专业制广州广告公司
  • 网站的seo优化方案梅州建站
  • 金坛网站建设公司服装设计与工程
  • 甘肃营销型网站建设做五金行业的外贸网站
  • 韶关营销网站开发网站建设敬请期待图片素材
  • 官方网站找oem做洗发水厂家推广app赚佣金
  • 唯美谷网站建设深圳优秀网站设计
  • 微信公众号 做不了微网站吗公司主页怎么制作
  • 防下载 的视频网站 怎么做制作网页需要的技术
  • 衡阳电商网站建设网站建设丶金手指花总13
  • 网站数据分析建设有没有做任务一样的网站兼职
  • 北京朝阳网站建设海外广告公司
  • 网站 名词解释上海注册公司哪家好