free 马斯克突发新版大模子,殉难特斯拉资源叫板OpenAI,一手实测来了
发布日期:2024-08-15 04:47 点击次数:171
梦晨 发自 凹非寺量子位 | 公众号 QbitAIfree
马斯克旗下xAI大模子,出二代了!
Grok-2测试版发布,小杯Grok-2 mini照旧在平台在线可玩。
马斯克还以谜语东说念主的格局,揭晓了困扰大模子圈一个多月的神秘:
制服下的诱惑原来Lmsys大模子竞技场上的深沉匿名模子sus-column-r,真身等于Grok-2。
sus-column-r在名次榜上积蓄了1万多东说念主类投票,照旧与GPT-4o的API版比肩第三。
在xAI我方的里面测试中,Grok-2在知识(MMLU、MMLU-Pro)、数学竞赛问题(MATH)、连接生水平科学知识(GPQA)等规模与其他前沿模子相比好意思。
另外Grok-2最擅长基于视觉的任务,在视觉数学推理(MathVista)达到SOTA。
不外这个图的排版可就有点神思在里面了:把分数最高的GPT-4o、Claude-3.5-Sonnet放得离我方远一些。
光看分数如故玄虚,底下就插足一手实测方法。
一手实测Grok-2
若是你是/推特平台付用度户,不错径直插足Grok频说念试玩。无用钱的话也不错到Lmsys大模子竞技场接受sus-column-r试玩。
而且付用度户反倒只可玩到小杯mini版,免用度户能玩大杯,亦然很厚到了。
由于Grok-2不错探问上的及时数据,不错径直让他纪念本日的新闻,开启真义真义模式的话还不错附赠吐槽。
付费版块还接入了最新开源AI生图模子Flux.1,会把汉文提醒词翻译成英文领路。
点进主页上的“安利一个玄幻游戏”问题示例,不错看到它先推选了《博德之门3》,并从剧情、东说念主物自界说、游戏机制、寰宇塑造、幽默元素和玩家社区几个角度作念点评,很好的主理了游戏的亮点。
此时不错径直换汉文不竭发问。
Grok-2雷同了解《黑听说:悟空》这款还没发售的游戏,准确说开赴售日历在8月20日、使用的演叨5引擎,而且纪念了上网友的连接。
还在终末附带了网友的帖子,不错点进去参与连接,偷拍走光与通盘这个词平台的功能整合照旧到位了。
不外由于上唯一mini版模子,接下来上强度测试咱们移步大模子竞技场,还不错与GPT-4o来一场捉对pk。
在最近流行的智力检测问题“9.9和9.11哪个大”上,Grok-2(sus-column-r)推崇碾压ChatGPT最新版块。
不外另一项流行测试“strawberry中有几个r”问题上,两者齐如故没能通过。(多试几次两者齐有小概率答对)。
更严肃一些的罗网题“以下哪支烛炬是开端被吹灭的”中,Grok-2比ChatGPT稍有超越。
考点是开端被吹灭的烛炬剩下的部分更长(正确谜底3),ChatGPT失误的领路成最短的,Grok-2念念路是对的但是数哪个最长没数对。
关于经典的大模子瑕疵“逆转悲哀”问题,两者似乎齐以某种格局克服了。不仅能正着修起“汤姆克鲁斯的母亲是谁”,也能倒过来修起数据出现频率更少的“Mary Lee Pfeiffer的女儿是汤姆克鲁斯”。
(虽然不摒除仅仅成为经典问题之后,关所有据更多了。)
马斯克大模子升级,殉难特斯拉换的
测试先告一段落,不错看出Grok-2对比上一代Grok-1.5有了很大超越。
背后马斯克然则,破耗了无数资源和东说念主力。
比如有新加入xAI的连接员暗意,能用10万卡集群作念连接,比起在学校里轸恤的资源爽太多了。
但是有一群东说念主可不泄气了:特斯拉推动。
凭证华尔街日报音书,马斯克持续把东说念主才、数据和GPU资源从特斯拉向xAI转动。
当今限度,xAI照旧雇佣了至少11名曾在特斯拉使命过的职工,其中六名径直在Autopilot团队使命过。
正本为特斯拉保留的GPU订单,马斯克也条件英伟达优先供应xAI。
马斯克还公开批驳了特斯拉收罗的无数视觉数据,他暗意这些数据不错算作测验xAI模子的资源。
至少三位特斯拉推动因为这事把马斯克给告了,宣称将资源转动到xAI毁伤了特斯拉投资者的利益。
当今案件正在特拉华州法院审理。