微软近日公布了其小语言AI模型家族的新成员“Phi-3-vision”。该模型旨在提供视觉能力,可以在移动平台上高效运行。根据介绍,Phi-3-vision是微软Phi-3家族首款多模态模型,并基于Phi-3-mini的文字理解能力。参数量为42亿,大于Phi-3-mini的3.8B,但小于Phi-3-small的7B。上下文长度为128ktoken,训练期间为2024年2月至4月。
微软表示,Phi-3-vision特别适合办公场合,并特别优化了在识别图表和方块图(Blockdiagram)方面的理解能力。它能够理解现实世界的图片含义,并快速识别提取图片中的文字。微软还声称他们所使用的训练数据“可追溯”,不包含任何个人信息以确保隐私。
微软提供了与竞品模型如字节跳动Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的LlaVA-1.6(7B)、阿里巴巴通义千问QWEN-VL-Chat模型等比较图表。结果显示Phi-3-vision在多个项目上表现优异。
值得一提的是,微软已经将该模型上传至HuggingFace,并且对感兴趣的人们开放访问该项目地址。
欢迎来到贝博app体育下载官网,这里是您通往卓越体育娱乐体验的门户。我们为您提供最新版本的贝博app体育下载,包括艾弗森专属推荐的版本。无论您是iOS还是Android用户,都可以在这里找到适合的下载版本。贝博app致力于为用户提供丰富多样的娱乐项目,包括体育赛事竞猜、电子竞技、真人游戏和经典棋牌,满足您多方面的娱乐需求。作为贝博投注平台,我们提供便捷的下载服务和优质的客户支持,让您随时随地享受顶级的娱乐体验。加入我们,探索极致的游戏乐趣和无与伦比的服务品质!