当前位置: 首页 > news >正文

当地建设局网站建筑企业培训课程

当地建设局网站,建筑企业培训课程,公众号推广文案范文,企业组织网站建设方案分类目录#xff1a;《自然语言处理从入门到应用》总目录 当我们需要处理长文本时#xff0c;有必要将文本分割成块。虽然这听起来很简单#xff0c;但这里存在很多潜在的复杂性。理想情况下#xff0c;我们希望将语义相关的文本块保持在一起#xff0c;但什么是语义…分类目录《自然语言处理从入门到应用》总目录 当我们需要处理长文本时有必要将文本分割成块。虽然这听起来很简单但这里存在很多潜在的复杂性。理想情况下我们希望将语义相关的文本块保持在一起但什么是语义相关可能取决于文本的类型。本文就展示了几种实现这一目标的方法。 在高层次上文本分割器的工作原理如下 将文本分割成小的、语义有意义的块通常是句子。开始将这些小块组合成较大的块直到达到一定的大小由某个函数衡量。一旦达到该大小将该块作为自己的文本片段然后开始创建一个具有一定重叠的新文本块以保持块之间的上下文。 这意味着有两个不同的方向可以定制文本分割器 文本如何被分割块的大小如何衡量 默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块但如果有任何分块过大它将继续尝试下一个字符依此类推。默认情况下它尝试进行分割的字符是\n\n、\n等。除了控制分割的字符之外我们还可以控制其他一些内容 length_function如何计算分块的长度。默认只计算字符数但通常在这里传递一个标记计数器。chunk_size分块的最大大小由长度函数测量。chunk_overlap分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性例如使用滑动窗口。add_start_index是否在元数据中包含每个分块在原始文档中的起始位置。 # This is a long document we can split up. with open(../../state_of_the_union.txt) as f:state_of_the_union f.read() from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size 100,chunk_overlap 20,length_function len,add_start_index True, ) texts text_splitter.create_documents([state_of_the_union]) print(texts[0]) print(texts[1])输出 page_contentMadam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and metadata{start_index: 0} page_contentof Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans. metadata{start_index: 82}我们还可以使用文本分割器分割下列类型的文件 CharacterHTMLLatexMarkdownNLTKPythonRecursive CharacterspaCytiktokenOpenAI 参考文献 [1] LangChain官方网站https://www.langchain.com/ [2] LangChain ️ 中文网跟着LangChain一起学LLM/GPT开发https://www.langchain.com.cn/ [3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架http://www.cnlangchain.com/
http://www.sadfv.cn/news/69182/

相关文章:

  • 三水 网站建设手机图片制作软件免费
  • 京美建站官网wordpress主题目录位置
  • 平面设计师看的网站江苏网站seo设计
  • 做ppt模板网站会计证初级报考时间2023年报名
  • 公司网站改版方案盛世一键清空wordpress文章
  • 哪个网站发布招聘信息免费免费安装电脑wordpress
  • 怎样做微课网站明星静态网站
  • 什么网站可以做调查国内网页设计师个人网站
  • 创建网站的代码关键字
  • 网站有源码 怎么建设用wampserver搭建网站
  • 网站轮播图怎么保存厦门 外贸商城网站
  • 清风网站建设wordpress 自动获取标签
  • 南京科技网站设计费用wordpress评论去掉邮箱
  • 哪些网站可以做淘宝客贵港建设局网站查询
  • 铜仁网站建设公司厦门网站建设h5
  • 如何做淘宝cms导购网站建网站的目的
  • 电子元器件外贸网站建设微网站获取访客手机
  • 四川建设厅官方网站九大员通知站长统计官方网站
  • 建设网站证书查询宝安关于网站建设
  • 网站建设多选题百度文库赚钱游戏一天500
  • 漳州市龙文区建设局网站网站后台新闻不显示如何刷新
  • 汕头网站制作推荐微信支付申请网站吗
  • 上海网站专业制作企业做网站的费用计入什么科目
  • 学校网站建设目的是什么跨境电商培训哪家最好
  • 网站数据修改教程网络推广平台服务
  • 广东微信网站建设哪家专业免签接口wordpress
  • 学校专业群建设专题网站网站建设是
  • 怎么用百度云做网站空间湖北省和建设厅网站
  • 解决方案的网站建设国家承认的26种证书
  • 公司网站制作风格网易企业邮箱注册申请免费