语言模型 - 程序员宅基地

谷歌新语言模型Switch Transformer

在过去的三年中，基于transformer的语言模型(LMs)在自然语言处理(NLP)领域一直占据着主导地位。Transformer 通常是在大量非结构化文本上预先训练的巨大网络，它能够捕捉有用的语言属性。然后，我么可以对预先训练的...

NLP 中的语言模型预训练&微调

语言模型（Language Model），语言模型简单来说就是一串词序列的概率分布。具体来说，语言模型的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性。在实践中，如果文本的长度较长，P(wi | w1,...

整理开源的中文大语言模型100+个，以规模较小、可私有化部署、训练成本较低的模型为主...

自ChatGPT为代表的大语言模型（Large Language Model, LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的...

大型语言模型的性能优化：基于参数调优和模型压缩的方法

标签：人工智能大数据自然语言处理

随着人工智能和自然语言处理领域的迅速发展，越来越多的语言模型被应用于各种应用场景中，如机器翻译、问答系统、文本摘要等。然而，由于模型规模庞大，训练时间长，部署成本高等缺点，如何优化大型语言模型的性能...

大型语言模型LLM的基础应用

标签： chatgpt 机器人 AI作画

ChatGPT是由人工智能研究实验室在2022年11月30日发布的全新聊天机器人模型，一款技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流...

基于大语言模型LangChain框架：知识库问答系统实践

标签：语言模型 langchain 人工智能

ChatGPT 所取得的巨大成功，使得越来越多的开发者希望利用 OpenAI 提供的 API 或私有化模型开发基于大语言模型的应用程序。然而，即使大语言模型的调用相对简单，仍需要完成大量的定制开发工作，包括 API 集成、交互...

生成语言模型

标签： SRILM 语言模型

这里主要介绍我使用过的两种根据文本生成语言模型的两种方法1. 通过网站： Sphinx 上传文件，生成对应的语言模型，需要注意的是文件最好不要太大，网站容易报504错误，贴下图吧，傻瓜式的操作方式：2. 使用SRILM ...

自己动手实现20G中文预训练语言模型示例

起初，我和大部分人一样，使用的是像Google这样的大公司提供的Pre-training Language Model。用起来也确实方便，随便...在BERT预训练语言模型刚出来时，最小的模型都是Base版的，它的hidden_size为768，占用内存大小为

直播加餐｜6个月过去了，重新认识大语言模型

本次直播分享了OpenAI最新的产品更新与体验，包括GPT4-V和DALL-E 3等高级数据分析内容。还介绍了Function Call和全新的Fine-Tune界面，以及基于Llama-2的开源大...文章内容偏软性，适合对大语言模型感兴趣的读者观看。

transformer模型的工作原理和语言模型BERT

transformer模型的工作原理和语言模型BERT 1，概述《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面...

语言模型(LM)介绍及实操

原文地址：https://medium.com/analytics-vidhya/a-comprehensive-guide-to-build-your-own-language-model-in-python-5141b3917d6d 文章开头便引用了一句话

跨域预训练语言模型(XLM)

目前多数语言模型都是单语义（monolingual）模型，比如BERT、XLNET、google的T5等等。期望有一种语言模型可以实现多种语言的融合，然后在一种语言训练模型，通过XLM迁移到其他语言上。比如标注语料较多的英语，我们...

九、N-gram语言模型

标签：自然语言处理概率论机器学习

1.语言模型语言模型的作用是根据文本输入，计算文本内容是句子的概率。 2 N-gram模型介绍 2.1 语言模型概念如果我们有一个由m 个词组成的序列（或者说一个句子），我们希望计算句子的概率。根据链式规则，可得 ...

学习AI之NLP后对预训练语言模型——心得体会总结

标签：人工智能机器学习自然语言处理

一、学习NLP背景介绍：从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像...之后从9月份开始在华为云AI专家的带领指引下，对AI深度学习的另外一个重要领域：自然语言处理（NLP）的学习，到...

大语言模型及其应用

标签：语言模型机器学习人工智能

机器学习（Machine Learning，ML）是指从数据中自动学习规律和模式，并利用这些规律和模式，在新的数据中完成类似任务的技术和方法。它属于人工智能（Artificial Intelligence）的一个分支。机器学习的核心思想是...

NLP各种语言模型的优缺点比较

标签：自然语言处理

n-gram语言模型引入马尔科夫假设，假设当前单词出现的概率只与前n-1个单词有关。常见的unigram、bigram、trigram公式如下：优点：(1) 采用极大似然估计，参数易训练；(2) 完全包含了前 n-1 个词的全部信息；(3)...

NLP进化史系列之语言模型

从20世纪70年代的统计语言模型，到2003年的神经网络语言模型，再到2018年刷新各种NLP任务记录的BERT，再到今年6月份的XLNet再次刷新各种记录，带你一起领略其中奥妙。目录 1、N-gram语言模型 2、神经网络语言模型...

AI TIME PhD自然语言处理专题：融合知识的预训练语言模型

标签：自然语言处理语言

预训练语言模型是近年来自然语言处理领域的热门话题，以BERT为代表的预训练模型在下游任务上取得了很好的效果。在本次报告中，讲者将梳理融合知识的预训练语言模型的研究进展与典型问题，并对于预训练模型学到了哪些...

语音识别-语言模型

1. 语言模型的目的提到语言模型，给一个大家最熟悉的使用场景就是输入法，智能拼音输入法，打出一串拼音，直接给出了合适的句子，即使不是你想要的，但确实是符合语法习惯的，例如，你的名字叫“福贵”你输入了...

开源微调大型语言模型（LLM）列表

标签：人工智能深度学习机器学习

【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

标签： C-Eval 中文大语言模型 superCLUE

中文英文模型，GPT-4性能是当着无愧的王者，但无法使用。`中文评测平台`榜单比较混乱，看个人使用习惯。

NLP：LM语言模型的简介(语言模型VS预训练模型)、发展历史(N-Gram→RNN→Transformer)、案例应用(语音识别/...

标签：自然语言处理 transformer 语言模型

NLP：LM语言模型的简介(语言模型VS预训练模型)、发展历史(N-Gram→RNN→Transformer)、案例应用(语音识别/机器翻译/自然语言生成)之详细攻略目录 LM的简介 LM的发展历史：N-Gram→RNN→Transformer ...

预训练语言模型综述

随着深度学习的发展，各种神经网络被广泛应用于解决自然语言处理（NLP）任务，如卷积神经网络（CNNs），递归神经网络（RNNs），基于图的神经网络（GNNs）和注意机制。相比于非神经网络NLP方法通常严重依赖于离散的...

Dive into BERT：语言模型与知识

标签： BERT

最近在研究的主要是跟知识相关的一些东西，包括回顾了一些知识表示模型呀，一些大规模的语言模型如何锦上添花融入外部知识的方法呀，如果你感兴趣的话可以直接去之前几篇博客里面瞄一眼。今天就以知识为切入点来更...

Ollama教程——入门：开启本地大型语言模型开发之旅

标签：语言模型人工智能自然语言处理

ollama不仅支持运行预构建的模型，还提供了灵活的工具来导入和自定义您自己的模型。无论是从GGUF格式导入还是进行模型的个性化设置，ollama都能满足您的需求。您还可以通过自定义提示来调整模型的行为。接着，创建一...

深入浅出语言模型（三）——语境化词向量表示（CoVe、ELMo、ULMFit、GPT、BERT）

标签：机器学习人工智能深度学习

上一节我们讲到了什么叫做静态词向量，静态词向量有个很大的特点就是每个词的表示是固定的，这样就不能解决我们人类语言中的一词多义问题，例如“I hurt my back, while I backed my car”，这句话中前一个"back"是...

统计语言模型(Statistical Language Model)-学习笔记

标签： N-gram NLP

统计语言模型是自然语言处理（Natural Language Processing,NLP）的基础模型，是从概率统计角度出发，解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。模型 ...

2024 年 8 个顶级开源 LLM（大语言模型）

标签：开源语言模型人工智能

选择开源 LLM 的公司将可以访问 LLM 的工作原理，包括它们的源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步，也是定制的第一步。由于每个人都可以访问开源 LLM，包括它们的源代码，因此使用...

语音识别中的WFST和语言模型

目前的实际场景中的语音识别系统更多是基于HMM的传统语音识别框架，如：DNN-HMM，这种框架是由声学模型、发音词典、语言模型和解码器构成的pipeline结构，其中声学模型建模粒度为比音素还小的三音素状态，而语言模型...

自然语言处理NLP（2）——统计语言模型、语料库

在这一部分中，我们将简要介绍NLP领域的基本模型——语言模型，我们还将对自然语言处理的基础——语料库的概念进行介绍。这些都是在学习自然语言处理之前所必备的知识。此外，我们默认大家有一定的信息论和概率论...

”语言模型“ 的搜索结果