游客发表

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

发帖时间:2024-09-23 13:27:30

上世纪80年代,架构在厦门工作期间,习近平上高山、进海岛、下农村、入农户,深入基层调研。

这些现实项目的进展中可能遇到这样那样的问题,站起注意出现超出预算或者交付推迟的情况,值得借鉴。此外,纯无超理解这些案例的分布状况也很重要。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

直到写书写到第5个年头,模型他不得不到一家纽约图书馆借一间免费的办公室写书,模型和其他作者交流沟通时,才清楚地意识到,作者们花上六七年甚至十几年写一本书很正常,例如《奥本海默传》(AmericanPrometheus:TheTriumphandTragedyofJ.RobertOppenheimer)写了25年。架构皮克斯动画工作室就特别看重准备。慢思快干整体而言,站起注意大项目如何完成,需要避免政治上的各种算计,也要避免心理上的错觉,最好的办法就是初期时详细规划,实施的时候雷厉风行。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

复杂大项目为什么要选用成熟的技术,纯无超而不是前沿的技术?因为成熟的技术可控、风险小。虽然帝国大厦一度是全世界最高的摩天大楼,模型但它并没有为了争得第一在建设时就冒冒失失地选择新技术。

非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1

问题恰恰出在这里,架构很多领导者在做出大决定的时候,架构并不会花上太多的时间,很可能利用系统1,按照自己的直觉来做决策,而且一旦决定了也不会再花时间思考,原本应该仔细思考、权衡各种可能选项的流程变成了拍板会。

其实不仅仅是大型建筑,站起注意无形的项目(比如一部大制作的电影一部电视剧,站起注意甚至一个重要的创业项目)也都需要充分的准备,这也是为什么为了拍摄《繁花》,王家卫要十年磨一剑。详尽规划,纯无超在规划中注意吸收反馈、不断迭代,但执行起来要快,千万不要有拖延症,或者让外部因素有干扰的机会。

卡尼曼在《思考,模型快与慢》中特别提到了参照系(referenceclass)这个概念,模型就是要针对人们普遍认为自己的项目是独一无二的,或者预估未来工作的时候出现锚定错误的问题。第一个主要原因:架构项目越大,架构政治影响的因素就越多,权力的角力过程中,战略误导(strategicmisrepresentation)成为一种常态,无论是现实中的政客还是企业中的管理者,为了让项目能够立项,为了让自己能够受益——很多时候立项了就能受益,在项目预估的时候给过于乐观的预测很正常。

此外,站起注意大项目也需要找有经验的团队来操刀,不要让自己的项目成为一帮雄心勃勃的人的小白鼠。当然,纯无超选择合适的参照系也很重要。

热门排行

友情链接