2026世界杯

2026世界杯

Z6尊龙凯时官方网站 280好意思元一单! 1000名工程师教Claude写好代码

发布日期:2026-06-06 21:58 来源:未知 作者:admin 浏览次数:

Z6尊龙凯时官方网站 280好意思元一单! 1000名工程师教Claude写好代码

新智元报谈

[新智元导读]Anthropic自家工程师早已基本不写代码了,却280好意思元一个任务,费钱请约1000名外部工程师,手把手教ClaudeCode写出好代码。喂养前沿模子的,终究如故东谈主。

最近,一篇报谈把ClaudeCode的「卓越秘笈」摆在了台面上。

BusinessInsider称,Anthropic有一个专门普及ClaudeCode的技俩,正在通过约1000名软件工程师的响应来打磨它。

这个技俩在数据公司SnorkelAI里面,代号为「Marlin」。

早在本年1月,ClaudeCode负责东谈主BorisCherny就爆料我方一经两个多月没手写过一滑代码,一天就让Claude提交22个拉取恳求(PullRequest),前一天则提交了27个,全是模子写的。

也有报谈称,Anthropic里面代码也大部分由AI生成。

道理道理的场地,正在这儿。

一边,Anthropic自家中枢工程师一经把大宗编码责任交给模子;另一边,它在费钱请约1000名外部工程师,手把手教ClaudeCode什么才叫「好代码」。

一小时280好意思元

买的到底是什么

按BusinessInsider的说法,Marlin技俩请的外部工程师王人有软件工程布景。他们的活儿,听上去很像一次真实的代码评审。

历程大略是这么。先从一份包含数千个仓库的清单里,选一个GitHub的代码仓库。然后建一个PR,也即是斥地者提叮嘱码修改的那一步。再写一段辅导词,把任务讲了了。

模子会生成两套代码,而这些外部工程师接下来要作念的,是A/B测试:比较两套输出,选出更好的那一套。

每个任务酬报280好意思元,约莫花一小时。有些还要和Snorkel的审核层往来好几轮。

评判的标准,是评估分娩级代码的正确性、安全性、可靠性和可谨慎性。

举两个真实的例子。

在一个任务里,外部工程师让模子重构系统处理践诺元数据(executionmetadata)的形势,观点是让代码更瓦解、更好谨慎,但不改变功能。

另一个任务中,外部工程师给MLflow这个开源机器学习平台作念安全缔造,针对它加载模子时下载Python包可能出现的大喊注入弱点。材料的条件相等明确:既要挡住大喊注入,又不可误伤正当的pip(Python包治理器)选项。

这些任务的条件,一经超出了数据标注的范围,更像是要让一个资深工程师,把脑子里那套「这么写更好」的判断原样拷给模子。

彰着,Anthropic购买的并非代码,而是资深智力员头脑中阿谁如何把代码写得更安全、更干净的判断。

为什么非得是工程师

Anthropic为什么要如斯大费周章?因为ClaudeCode早就不是一个写代码的聊天框了。

Anthropic官方把它界说为技俩级的AI智能体。它能读完统统这个词代码库,跨文献作念预备,平直践诺修改,跑测试,再凭证失败的着力我方迭代。

Anthropic官网对ClaudeCode的界说:一套能读代码库、跨文献改变、跑测试、托付已提叮嘱码的智能体。

这意味着它会真的开首改文献、跑任务,讲和统统这个词代码工程。

Anthropic我方也了了这件事的重量,因此在工程博客里反复讲ClaudeCode的权限、沙箱和批准疲倦(approvalfatigue)问题。

默许情况下,高风险文献修改或大喊践诺需要用户批准;为减少反复授权带来的批准疲倦,Anthropic还引入了sandboxing,让ClaudeCode在预设文献系统和网络范围内更安全地初始。

当一个AI能跑大喊、能动线上代码,犯错的代价就统统不相通了。检修观点也随着变:从「写对」升级到「写得安全、可靠、可谨慎」。

这些东西,闲居的代码语料喂不出来。它夙昔藏在资深工程师的代码审查里,是东谈主传东谈主的素质。当今,Anthropic想通过招募东谈主类编程众人,把它酿成不错购买的数据。

Snorkel

被低估的「数据军火商」

整件事情的真实主角是Snorkel。

这家公司2019年从斯坦福AILab走出来,押注的标的只须一个:真实决定机器学习成败的是数据,而不是模子或者算力。

Snorkel的两位伏击创始东谈主是AlexRatner和他在斯坦福的导师ChrisRé,他们说Snorkel的中枢学术起源。

SnorkelAI聚创始始东谈主、CEOAlexRatner

2015年,Snorkel还仅仅Ratner读博时的一个「下昼技俩」:与其花大价格雇东谈主一条条标数据,不如用智力和王法作念「弱监督」(weaksupervision),让模子不靠东谈主工逐条标注也能学。

靠着这套想路,Snorkel攒下60多篇论文,开源器具也被Google、Intel用了起来,直到2019年才矜重拆分红公司。

SnorkelAI聚创始始东谈主,斯坦福教学ChrisRé

Ratner的导师ChrisRé亦然个狠变装。

他是斯坦福教学、麦克阿瑟天才奖得主、贯穿创业者,参与的技俩曾被苹果收购,还创办了估值一度达50亿好意思元的SambaNova。

最有道理的如故这家公司的回身。

Snorkel当年要破的,恰是「东谈主工标注又慢、又贵、又不稳」这个老浩劫,其时AI斥地约80%的期间王人耗在手工标注数据上,因此Snorkel开端的逸想,即是尽量把东谈主从标注里目田出来。

可到了前沿模子时期,最稀缺、最值钱的又回到了东谈主身上,仅仅换成了博士、医师、讼师、资深工程师等众人的品尝和判断。这家靠「少用东谈主」起家的公司,如今最获利的交易反倒是组织一支激昂的众人雄兵去检修前沿AI,Z6尊龙凯时Marlin仅仅其中一单。

它的责任流,刚好也呼应了Marlin技俩的需求。

Snorkel官网这么刻画这套责任流:先界说任务、评分标准和考证器,框定「什么算好」,再跑众人评审活水线,作家、多名评审、最终裁决者层层把关,全程留痕。

Snorkel官网暗示:评审打分出现不合后经裁决惩处,并写入评分标准变更纪录,每处改变王人可追猜度谁、何时、依据什么。

它还会把评估环境和数据一并搭好,让消亡批任务能在不同模子版块上反复跑,得出可复现、可比较的分数。而要让分数干净可比,评分的东谈主就不可受版块侵犯。这些外部工程师不知谈我方评的是哪个版块,原因就在这儿。

报价也很能评释问题。

Snorkel一个公开的法律标的左券岗,每个高质地任务10到100好意思元;而Marlin的软件工程任务是280好意思元一个、约一小时,折成时薪差未几是同业的两倍半(ScaleAI、Mercor给工程师开到每小时110好意思元)。顶尖众人周入还能卓越3000好意思元。

Snorkel招募的这些外部工程师的响应,是真的贵。

客户名单里有Google、Mistral、Anthropic。2025年5月,Snorkel完成D轮融资,估值13亿好意思元。

Anthropic营收负责东谈主KateJensen闪现,要把Claude的后劲统统开释出来,得靠引入领域众人和东谈主类响应的新评估步履,Anthropic会不绝和Snorkel这么的公司配合。

Snorkel、Scale、Mercor这些公司,夙昔被当成「标注平台」。如今它们成了前沿模子公司背后的隐形供应链。

给最智谋的AI喂料的,即是这么一支漫步天下、看不见的众人雄兵。

几个巨头

抢的是消亡种数据

不仅仅Anthropic在买真实工程智力。这场竞赛,几个重磅玩家王人在参与,仅仅打法不同。

Cursor走的是产物数据这条路。

它官方写明:用户开启隐讳步地后,代码毫不会被它或第三方用于检修;只须关闭隐讳步地,它才可能用代码库数据、辅导词、剪辑举止、代码片断,来革命AI功能、检修模子。

Cursor的Tab模子每天产出卓越10亿个剪辑字符,恳求量比第一版涨了约100倍。更进一步的Composer,通过强化学习(RL)检修,让模子在大宗代码任务环境中学习调用剪辑、搜索等器具,处理更长周期的工程任务。

到最新的Composer2.5,干脆主攻需要数百步操作的长周期任务。

马斯克汲取的是老本绑定/收购期权的形势。

本年2月,xAI并入SpaceX。4月底,SpaceX拿下了年内以600亿好意思元收购Cursor母公司Anysphere的职权,或者先付100亿好意思元作念深度配合。马斯克看中的恰是Cursor手里那份天下最活跃的真实斥地者举止数据。

5月25日,马斯克在X上告示,新一代基础模子GrokV9-Medium检修完成,参数1.5T,是现时分娩模子的3倍。他专门点出,这如故没加Cursor数据补训之前的收成,加完「编程智力会强好多」,模子展望6月中旬发布。

这么一来,V9会是第一个系统性地「吃过」真实斥地者举止数据的Grok。

2026美加墨世界杯中国官方网页版

OpenAI自后的Codex也走上了这条路。2025年发布的Codex由codex-1驱动,OpenAI称其是在真实编码任务上通过强化学习检修的,观点是写出靠拢东谈主类立场、合乎PR俗例的代码,还能反复跑测试直到通过;每个任务跑在预装了你代码库的闭幕沙箱里。

如今Codex已升级为OpenAI的agenticcoding平台,由其前沿编码模子驱动;据Axios报谈,每周用户已卓越500万。

他们争夺的,其实是消亡种东西:过程数据,仅仅旅途各不相易。

Anthropic先有模子,缺真实斥地现场的响应,就费钱请约1000名工程师,把软件工程过程拆成可学习的数据;

Cursor先有产物和真实用户举止,也有自研的Tab、Composer等编程模子。但比较OpenAI、Anthropic,它更缺的是通用基础模子底座和大规模检修算力;

马斯克缺的亦然数据,干脆试图用几百亿好意思元去买一个不绝产生斥地者举止数据的产物进口;

OpenAI模子、产物两端王人不缺,于是我方搭沙箱,让模子在真实编码任务里通过强化学习一遍遍试错、测试、修正、迭代。

几家打法不同,同归殊涂,王人在用越来越接近真实工程现场的数据,来检修我方的AI编程模子。

真实的护城河

是东谈主的品尝和判断

有一篇叫SWE-chat的论文,第一次大规模网络了真实的智能体编码会话:6000段、卓越6.3万条用户prompt、35.5万次器具调用。

它得出一个扎心的数字:智能体产出的代码,只须44%最终参加了用户的提交里。有一半多的庆幸被东谈主删了、改了、推翻了。

SWE-chat实测:vibecoding已占41%的会话,但智能体写的代码只须44%最终参加提交;用户在44%的交互轮次里通过改良、报错或中断来反推模子输出。

这评释,HumanEval那类老的基准测试(benchmark)一经刷到弥散,光看跑分道理道理不大了。真实的战场,是真实斥地过程里那些反复、试错、推翻重来的数据。

模子越强,越要费钱去买东谈主类还没被替代的那部分东西:工程直观。

Anthropic花280好意思元一个任务,请来约1000名工程师作念A/B投票:这套看上去穷苦的活儿,买的恰是这少许。

谁能把工程现场酿成模子能消化的数据Z6尊龙凯时官方网站,谁就持住了参加AI编程下一程的入场券。

上一篇:上一篇:Z6尊龙凯时官方网站 铃木吉姆尼:方盒子里的越野外传
下一篇:下一篇:没有了