英文: CUDA program printing less values than expected 问题 这个CUDA 实验性程序应该打印出16个值。 然而,它只打印出12个值。 可能的原因是: ...
使用CUDA Thrust进行向量的替换/合并操作
英文: Replace/Merge operations in vectors using CUDA Thrust 问题 我有两个操作可以使用CUDA Thrust来操作设备向量中的元素。哪些方法可以...
使用CUDA Thrust进行矢量的替换/合并操作
英文: Replace/Merge operations in vectors using CUDA Thrust 问题 使用CUDA Thrust来操作设备向量中的元素有两种操作。哪种方法可以更高效...
仅有一个线程的块是否高效?
英文: Are blocks of only one thread efficient? 问题 假设没有线程间通信和GPU上的其他进程, 在N <= 32且32 < N < 32 *...
如何调整CUDA内核的SM利用率(跨整个GPU)?
英文: How to tune the SM utilization (across the entire GPU) of a CUDA kernel? 问题 我想尝试使用CUDA MPS(Multi...
图像为什么只被部分处理?
英文: Why is the image being partially processed? 问题 我已经找到问题所在。是我读取图像的方式有问题。 应该改成: img = cv2.imread(im...
Rust FFI 和 CUDA C 性能差异
英文: Rust FFI and CUDA C Performance Discrepancy 问题 我有一个矩阵乘法核心,在使用CUDA C时,它的性能比在调用相同函数的Rust FFI版本时快10...
Detecting nearly singular matrix in CUDA
英文: Detecting nearly singular matrix in CUDA 问题 我正在尝试计算许多矩阵的逆矩阵,最终是为了找到系统的解决方案。 我通过以下CUBLAS函数调用序列来实现...
CUDA数学函数寄存器使用
英文: CUDA math function register usage 问题 我正在尝试理解在使用一些内置的CUDA数学操作时所产生的显著寄存器使用情况,比如atan2()或除法,以及如何减少/消...
混淆关于CUDA核心数量和并行线程数量的情况
英文: Confusion around no of CUDA Cores and the number of parallel threads 问题 我有NVIDIA Corporation TU1...