科研可以不做，博士还是要读。。。

Python编程爱好者

发布于 2024-05-03 14:08:48

380

发布于 2024-05-03 14:08:48

文章被收录于专栏：Python编程爱好者Python编程爱好者

Hi，我是Johngo~

今天看到一个帖子，分享给大家~

不读（博）的人永远不知道这个过程的酸涩苦辣，也只有读过的人才能共情它的价值和营养。科研可以不做，博士尽量还是要读。从挺直腰杆子的底气到社会信任的基石。不多几年修行，怎么经风踏浪，怎么破除所谓的“钝感力(其实是不上心)”，怎么有效应对所谓的“精神内耗（其实是听不得别人建议的心底抗拒）”，怎么摩掉新式的“情绪价值(奈何只是彩虹屁的大量诉求)”...... 年轻人无数次的自省与自我独白，才能真的脱掉纸尿裤”，换上耐受的“千层底”呀，才能从你张嘴只会夸夸拍马屁变成气自华、言有力的腹有诗书呀~

我觉得，任何事情，不经历整个过程，就无法理解每件事的价值和意义。无论是读博士、还是硕士、本科等等。不仅是学术学业上的修行，更是一种社会认可和信任的基础。

通过读书，大家可以培养自我自信和承担责任的能力，同时也能够更好地面对困难和挑战，提高自己的心理素质。

总之，走在人生路上，最重要的就是：不畏艰难，砥砺前行，多进行自我反省，这是成长的关键，只有经过反复思考和磨砺，才能摆脱幼稚和浮躁，变得更加成熟和有深度。

最近很多同学反映，论文太让人头疼了，每天吃饭睡觉都是在一个不知名的状态中，寻找那一点思路。

坚持就好，不怕走的慢，时间能够证明一切。

Attention is All You Need

该论文提出了一种名为Transformer的新型神经网络架构，用于解决序列到序列（sequence-to-sequence）的任务，如机器翻译、文本摘要等。传统的序列模型如循环神经网络（Recurrent Neural Networks, RNNs）和卷积神经网络（Convolutional Neural Networks, CNNs）在处理长序列时面临着记忆问题和并行计算效率低下的困扰。而Transformer则采用了完全不使用循环和卷积的机制，仅依赖于自注意力机制（self-attention）来建模序列之间的关联。

Transformer具有以下几个方面的优势：

并行计算：由于Transformer没有循环结构，可以同时处理序列中的所有元素，从而实现更高效的并行计算，大大缩短了训练时间。
长距离依赖关系：自注意力机制允许模型在编码和解码过程中无需考虑序列的顺序，从而能够更好地建模长距离依赖关系，提高翻译和摘要等任务的性能。
可解释性：与传统的序列模型相比，Transformer的自注意力机制能够对输入序列的不同位置之间的关联进行可视化和解释，从而提供更好的模型可解释性。

Extended Transformer Construction

该论文提出了一种扩展Transformer模型的方法，用于解决传统Transformer模型在长距离依赖建模上的局限性。传统Transformer模型在处理长句子时，由于自注意力机制的影响，会出现信息的丢失和模糊。为了解决这个问题，论文提出了一种可扩展的Transformer模型。

论文的主要贡献包括：

引入分层注意力机制： 扩展Transformer模型通过引入分层注意力机制，将全局信息传播到每一个子词。这种机制能够帮助模型建立更长距离的依赖关系。
基于存储器的扩展： 扩展Transformer模型还提出了一种基于存储器的扩展策略，在每一层中引入了额外的存储器单元来保存全局信息。这种存储器机制可以帮助模型在不降低信息传播效率的同时，捕捉全局信息。
训练与调优： 论文还提出了一种有效的训练方法，针对扩展Transformer模型进行了调优。该方法能够在迭代训练中适应模型的扩展结构，并在验证集上进行动态评价。

Fnet

在Fnet中，作者提出了一种新颖的注意力机制，称为"Soft Position Embedding"。该机制旨在解决自注意力机制中存在的一些问题，例如对序列长度的敏感性以及计算复杂度的增加。此外，Fnet还引入了一种新颖的位置编码方案，以更好地捕捉序列中的位置信息。

主要贡献：

Fnet架构：引入了一种全新的网络结构，取代了传统Transformer中的自注意力机制。这种新型结构更加高效，并且在处理长序列时表现更好。
Soft Position Embedding：提出了一种新型的注意力机制，能够更好地捕捉序列中的长距离依赖关系，并且具有更低的计算复杂度。
位置编码方案：引入了一种新的位置编码方案，能够更好地捕捉序列中的位置信息，从而提高了模型的性能。

Funnel-Transformer

Funnel-Transformer 旨在解决传统 Transformer 模型在处理长文本时的效率问题。传统 Transformer 模型在处理长序列时需要消耗大量的计算资源，并且容易受到序列长度的限制。Funnel-Transformer 提出了一种新的结构，通过引入分层结构和跨层信息传递的方式来减少冗余计算，提高长序列处理效率。

主要贡献：

分层结构： Funnel-Transformer 引入了分层结构，将输入序列按照不同的层次进行处理。具体地，模型首先通过一个宽而浅的层对输入进行初步处理，然后逐渐减少宽度并增加深度，直到最后一个较窄但更深的层。这种分层结构能够在不影响模型性能的前提下显著减少计算量。
跨层信息传递： 为了更好地利用不同层次的信息，Funnel-Transformer 提出了一种跨层信息传递的机制。具体地，模型在不同层次之间引入了全局注意力机制，使得每一层都能够获取到其他层的信息。通过这种方式，模型能够充分利用输入序列的全局信息，从而进一步提高性能。
参数共享： 为了进一步减少模型的参数量，Funnel-Transformer 还采用了参数共享的策略。具体地，模型在不同层次之间共享参数，使得整个模型的参数量大大减少。这种参数共享的策略不仅能够减少内存消耗，还能够提高模型的泛化能力。