简体中文
Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题速度比它还快4成!目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加迅速增加,如音乐、图像或视频文件通常包含数兆字节大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。Megabyte模型则将输入和输出序列分成patch不是单个的token。Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。
相关阅读20条
增值电信业务经营许可证:苏B2-20170066 在线数据处理与交易许可证:苏B2-20170066苏公网安备 32010502010137号
Copyright © 2016-现在 中介网 zhongjie.com All rights reserved 南京众杰网络科技有限公司 版权所有 苏ICP备16043105号-1