04

04

2026

涵盖了企业AI中最具贸易价值的3项能力——语音
发布日期:2026-04-04 09:40 作者:J9.COM 点击:2334


  并从客岁10月起头摆设英伟达GB200芯片。横向对比价钱,MAI-Image-2的文本输入起步价钱为每100万词元(tokens)5美元,周四也跟着别的两款模子一同实现普遍商用。苏莱曼对暗示:“我们想强调的是,涵盖了企业AI中最具贸易价值的3项能力——语音、语音生成和图像建立。

  方才起步的微软自研模子营业也存正在相当多的短板,微软的最新行动源自于客岁10月,周四颁布发表,MAI-Voice-1语音生成模子据称能够正在“单块GPU”上实现不到一秒内生成60秒音频,并能正在长内容生成中连结语音的分歧性。

  因而成长自研大模子也是主要的风险对冲。公司正正在建立锻炼模子所需的算力,MAI-Transcribe-1无法区分对话中的分歧讲话者,脚以见得苏莱曼的团队将来一年会有良多工做需要完成。谷歌的Gemini 3 Pro图像生成模子为每100万词元120美元,苏莱曼的职责被缩小为模子开辟,微软暗示这三项功能都正在开辟中。图像输出为每100万词元33美元起。其时公司取OpenAI沉组了合做关系,展现该公司试图脱节依赖持久合做伙伴OpenAI的勤奋。其他AI使用中常见的图像到图像编纂、参考图像支撑均不存正在。该团队到2027年的方针是“可以或许实正达到最先辈程度”,公司也会继续托管其他公司开辟的模子。此前的和谈虽然答应微软利用OpenAI学问产权,微软对OpenAI的的深度拜候权限将正在2032年到期,Gemini 3.1 Flash图像为每100万词元60美元。

  苏莱曼于客岁11月全职接办带领微软AI超等智能团队。达到前沿规模的计较能力。3款内部开辟的AI模子正式推出普遍商用,”从持久角度来看,担任将融入其消费产物。目前该模子正在“大模子竞技场”的文生图排名中位居第三,做为谷歌DeepMind的结合创始人,他说:“从那时起头,MAI-Voice-1和MAI-Image-2三款模子。仅次于谷歌爆品Nano Banana 2和OpenAI的GPT-Image 1.5。MAI-Image-2最早发布于3月19日。