xinyazhang · November 4, 2024 17:34
diff --git a/with sdpa_kernel.py b/with sdpa_kernel.py
 import contextlib
 from torch.nn.functional import scaled_dot_product_attention
 from torch.nn.attention import sdpa_kernel, SDPBackend

 ctxmgr = contextlib.nullcontext()
 # ctxmgr = sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION])
 # ctxmgr = sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION])
 # ctxmgr = sdpa_kernel(backends=[SDPBackend.MATH])
 # ctxmgr = sdpa_kernel(backends=[SDPBackend.CUDNN_ATTENTION])

 with ctxmgr:
  pass  # call scaled_dot_product_attention here
	import contextlib
	from torch.nn.functional import scaled_dot_product_attention
	from torch.nn.attention import sdpa_kernel, SDPBackend

	ctxmgr = contextlib.nullcontext()
	# ctxmgr = sdpa_kernel(backends=[SDPBackend.EFFICIENT_ATTENTION])
	# ctxmgr = sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION])
	# ctxmgr = sdpa_kernel(backends=[SDPBackend.MATH])
	# ctxmgr = sdpa_kernel(backends=[SDPBackend.CUDNN_ATTENTION])

	with ctxmgr:
	pass # call scaled_dot_product_attention here
No results found