Hugging Face 开源 8B 视觉大模型；OpenAI 推出批量 API ｜ AI 头条

Hugging Face 开源 8B 视觉大模型；OpenAI 推出批量 API ｜ AI 头条

2024-11-01 09:21

整理 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

全球 AI 要闻

斯坦福大学今日发布的《2024 年人工智能指数报告》显示，2023 年 ChatGPT 日、周、月使用率分别为全球用户的 17%、36%和 16%，其中印度、巴基斯坦和肯尼亚等地使用率最高。行业在 AI 研究上占据主导，贡献 51 个关键模型，远超学术界的 15 个。全年共发布 149 个基础模型，同比增长显著，且大部分开源。训练成本剧增，如 GPT-4 耗资 7800 万美元，Gemini Ultra 达 1.91 亿美元。生成式 AI 投资逆势增长至 252 亿美元，美国投资总额 672 亿美元领先全球，是同期中国的近 9 倍。尽管 AI 职位需求下滑，但 AI 提高了工作效率和质量，80% 财富 500 强企业在财报中提及 AI。美国 AI 法规增至 25 项，欧美推动相关政策，全球关注度翻倍。公众对 AI 影响的认知加深，66%受访者预计 AI 将极大影响未来生活，但仅 37%认为 AI 将改善工作。ChatGPT 广为人知，63%受访者知晓，半数每周至少使用一次。AI 在科学和医学领域成果显著，但负责任 AI 评估缺乏统一标准，深度伪造和碳排放问题引起广泛关注。

Adobe 宣布将为 Premiere Pro 添加 OpenAI 的 Sora、Runway ML 的 Gen-2 及 Pika 1.0 等第三方 AI 视频生成插件，实现重大升级。此举有望将 AI 工具带给更广泛的用户群体，并可能引发视频制作行业的深刻变革。今后，用户可在同一编辑界面下融合实拍视频与 AI 生成画面，如轻松借助 AI 生成影片中角色的动作、背景等元素，甚至扩展镜头、优化过渡效果。此外，Firefly for Video 功能将支持智能对象检测与移除，用户可快速更改或删除视频中的物体，同时还具备文本转视频图像生成能力，与 Sora、Runway 等顶尖 AI 视频生成工具一较高下。Adobe 坚信 AI 生成内容的价值在于融入日常工作流程，助力用户开启创新之旅。

Hugging Face 推出 8B 视觉大模型 Idefics2

继 2023 年推出基于 DeepMind 技术的 Idefics 视觉语言模型后，Hugging Face 近日发布了其升级版——Idefics2，这款 80 亿参数量、完全开源的新模型在OCR识别和图像处理方面实现了显著提升。Idefics2 精简至 80 亿参数规模，与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当，能够灵活处理最高 980 x 980 像素原生分辨率与任意比例的图像，无需传统 CV 中常见的方形尺寸调整。

开源链接：https://huggingface.co/HuggingFaceM4/idefics2-8b

近日，前 PayPal CEO Dan Schulman 在 LTF 2024（纽约证券交易所在 Riverwood Capital 组织的拉丁美洲科技论坛）上发表言论，表示“GPT-5 的发布将会是一场令人惊慌失措的时刻”“80% 的工作岗位将在职责范围上缩减至原来的 20%”。

OpenAI 开发者平台发布 Batch API，专为异步任务（如摘要、翻译、图像分类）设计，以节省成本、提高处理速率。用户仅需上传批量请求文件，24 小时内获取结果，且享 API 价格半价优惠。此服务简化大规模数据处理流程，兼顾成本与效率，凸显 OpenAI 对高性价比解决方案的承诺，提升 AI 技术在各领域应用的经济可行性。

Rewind 公司发布可穿戴 AI 设备 Limitless 系列，全天候记录对话

Rewind 公司正式推出可穿戴 AI 新品 Limitless，包含会议助手 Limitless Meetings 和可穿戴吊坠 Pendant 两款产品。Limitless Meetings 以自动化会议管理、智能记录与总结为核心，兼容各类会议平台。Pendant 作为全球最小的 AI 穿戴设备，可全天候记录对话并存储个人见解，配备 Wi-Fi 与蓝牙功能，电池寿命达 100 小时，用户只需简单触摸或长按，即可唤醒个性化 AI 与其互动，回顾检索相关信息。

Poe 平台推出多模交互，布局企业级市场引领 AI 聊天机器人潮流

问答社区 Quora 旗下 AI 聊天机器人平台 Poe 获得 7500 万美元投资后，持续拓展功能，力图成为汇聚多种对话 AI 模型的一站式服务中心。其创新功能“多机器人聊天”使得用户可在单个会话中同时与多个 AI 模型互动，如在 Slack 上通过@提及方式调动 GPT-4 进行分析、Claude 辅助创作和 DALL-E 3 生成图像等。Poe 瞄准日益丰富的 AI 模型生态，力求优化用户体验，整合最优资源，借助该功能及即将推出的企服版本，强势进军并主导 AI 聊天机器人市场。

WizardLM-2 系列模型推出，创新训练法与合成数据系统

WizardLM 公司新推 WizardLM-2 系列模型（8x22B、70B、7B），应对自然数据不足，采用 AI 合成数据训练体系。其核心策略包含两大部分：

1. 数据预处理精细调控，从数据分析到加权抽样，确保模型接触全面且优质的训练素材。

2. 渐进式学习创新实践，Evol Lab 技术让模型自动生成高质量指令和改进回应，并通过“AI 互校 AI”(AAA)框架，多模型交叉教学提升性能。同时，WizardLM-2 结合监督学习、Stage-DPO 阶段强化学习优化及 RLEIF 奖励机制，有效提高模型精度和适应性。

开源链接：https://huggingface.co/collections/microsoft/wizardlm-661d403f71e6c8257dbd598a（Hugging Face）https://wizardlm.github.io/WizardLM2（GitHub）

Pile-T5：EleutherAI 针对代码任务优化的新一代T5模型

EleutherAI 发布的 Pile-T5 模型针对原始 T5 在处理代码任务时的不足进行了专门优化，采用了更精准处理代码标记的 LLaMA 分词器，并加倍训练数据至 2 万亿 token。尽管沿用了 T5 的超参数设定，但通过结合 T5x 技术，Pile-T5 在微调后的性能显著提升。在 SuperGLUE 基准测试及 CodeXGLUE 的“代码到文本”子任务中，Pile-T5 均展现出超越 T5-v1.1 的出色表现，特别是在代码相关领域，其改进效果尤为明显。

开源链接：https://huggingface.co/EleutherAI/pile-t5-xxl

以上就是本篇文章【Hugging Face 开源 8B 视觉大模型；OpenAI 推出批量 API ｜ AI 头条】的全部内容了，欢迎阅览！文章地址：http://www.riyuangf.com/quote/732.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅易阁资讯移动站 http://www.riyuangf.com/mobile/ , 查看更多