LaMini-Flan-T5–248M
团队构建了一套由现有和新建指令组成的 2.58M 条指令集。这些指令涵盖多个主题,然后使用 GPT-3.5-turbo 生成响应。
根据 Lamini 的论文,LaMini-Flan-T5-248M 在下游 NLP 任务上的表现甚至优于 LLaMa-7B。当模型尺寸较大时,LaMini-Flan-T5 与 LaMini-GPT 相当。即使在 5 亿个参数以下,LaMini-Flan-T5 系列也能产生惊人的效果。
LaMini-LM | LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions
orca-mini-3b
StableLM-zephyr
Danube-1.8b-chat
-
https://huggingface.co/brittlewis12/h2o-danube-1.8b-chat-GGUF
-
https://huggingface.co/asedmammad/gemma-2b-it-GGUF/tree/main
-
https://huggingface.co/tsunemoto/cosmo-1b-GGUF/tree/main
MobiLlama-1B-Chat
MobiLlama 是一种 SLM 设计,它从更大的模型开始,并应用了谨慎的参数共享方案,以降低预训练和部署成本。
[https://huggingface.co/MBZUAI/MobiLlama-1B-Chat)
Qwen 0.5b
Danube3–0.5-chat
0.5b 聊天模型:小巧、快速、功能强大
h2o-danube3–500m-chat 是 H2O.ai 开发的聊天微调模型,拥有 5 亿个参数。根据Hugging Face Hub 上的模型卡,它可以在手机上本地运行,完全离线——你可以使用H2O AI Personal GPT亲自尝试。
H2O 对 Llama 2 架构进行了总共约 5 亿个参数的调整。有关详细信息,我们可以参考技术报告。团队决定使用词汇量为 32,000 的 Mistral 标记器,并将模型训练到上下文长度为 8,192 个标记
https://huggingface.co/h2oai/h2o-danube3-500m-chat
TinyLlama
TinyLlama 的目标是在 3 万亿个标记上对 1.1B Llama 模型进行预训练。
新加坡的亚洲团队。该项目目前由新加坡科技设计大学 StatNLP 研究小组的Peiyuan Zhang *、Guangtao Zeng *、Tianduo Wang和Wei Lu贡献
通过适当的优化,我们可以在“仅”90 天内使用 16 个 A100–40G GPU 🚀🚀 实现这一目标。
采用了与 Llama 2 完全相同的架构和标记器。这意味着 TinyLlama 可以插入并运行在许多基于 Llama 构建的开源项目中。此外,TinyLlama 非常紧凑,只有 1.1B 个参数。这种紧凑性使其能够满足大量需要有限计算和内存占用的应用程序的需求
一般来说,只要你有足够的 RAM,参数少于 3B 的模型可以在没有 cuda 支持的情况下运行
https://huggingface.co/TheBloke/TinyLlama-1.1B-1T-OpenOrca-GGUF
Gemma2–2B
2B 参数模型超越了 GPT-3.5(175B+ 参数)——几乎令人难以置
-
这款生成式人工智能拥有 26.1 亿个参数,足够小,可以在任何消费级硬件上运行
-
即使只使用 CPU 你也能拥有不错的速度
-
8k 个 token 的上下文长度使我们能够进行 RAG、上下文学习和思维链
-
能流利地说多种语言:英语、意大利语、法语、德语
https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf
wget https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf -OutFile model/gemma-2-2b-it-Q5_K_M.gguf
Gemini Nano
Gemini Nano 分为两个层级,Nano 1(18 亿)和 Nano 2(32.5 亿),分别适用于低内存和高内存设备。Gemini Nano 内置于谷歌的 Pixel 8 Pro 上,它将成为一款全面增强 AI 的智能手机)。
Inference
from llama_cpp import Llamallm = Llama( model_path='model/gemma-2-2b-it-Q5_K_M.gguf','model/gemma-2-2b-it-Q5_K_M.gguf', #n_gpu_layers=0, temperature=0.24, n_ctx=8196, max_tokens=600, repeat_penalty=1.176, stop=['<eos>'], verbose=False, )print(llm.create_chat_completion( messages=[{'role':'user','content':'What is Science?'}], stop=['<eos>']))