import torch
import torch.nn as nn

class SelfAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads

        assert self.head_dim * heads == embed_size, "Embedding size must be divisible by heads"

        self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.fc_out = nn.Linear(embed_size, embed_size)

    def forward(self, values, keys, queries, mask):
        N = queries.shape[0]
        value_len, key_len, query_len = values.shape[1], keys.shape[1], queries.shape[1]

        values = values.reshape(N, value_len, self.heads, self.head_dim)
        keys = keys.reshape(N, key_len, self.heads, self.head_dim)
        queries = queries.reshape(N, query_len, self.heads, self.head_dim)

        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
        if mask is not None:
            energy = energy.masked_fill(mask == 0, float("-1e20"))

        attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3)
        out = torch.einsum("nhql,nlhd->nqhd", [attention, values])
        out = out.reshape(N, query_len, self.embed_size)
        return self.fc_out(out)

TensorFlow 實現 Self-Attention

import tensorflow as tf

class SelfAttention(tf.keras.layers.Layer):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads

        assert self.head_dim * heads == embed_size, "Embedding size must be divisible by heads"

        self.values = tf.keras.layers.Dense(self.head_dim)
        self.keys = tf.keras.layers.Dense(self.head_dim)
        self.queries = tf.keras.layers.Dense(self.head_dim)
        self.fc_out = tf.keras.layers.Dense(embed_size)

    def call(self, values, keys, queries, mask):
        batch_size = tf.shape(queries)[0]

        values = tf.reshape(values, (batch_size, -1, self.heads, self.head_dim))
        keys = tf.reshape(keys, (batch_size, -1, self.heads, self.head_dim))
        queries = tf.reshape(queries, (batch_size, -1, self.heads, self.head_dim))

        energy = tf.einsum('nqhd,nkhd->nhqk', queries, keys)
        if mask is not None:
            energy += (mask * -1e9)

        attention = tf.nn.softmax(energy / (self.embed_size ** (1/2)), axis=-1)
        out = tf.einsum('nhql,nlhd->nqhd', attention, values)
        out = tf.reshape(out, (batch_size, -1, self.embed_size))
        return self.fc_out(out)