Блочная матрица: различия между версиями

[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Строка 111:
: <math>C_{ij}=\sum_{k=1}^{n} A_{ik} \times B_{kj}</math>
 
либо ее более быстрых аналогов, а размер обрабатываемых данных на каждой итерации не превышает емкость кэш-памяти. Размер блока напрямую зависит от архитектуры вычислительной системы и определяет время выполнения умножения<ref>[http://evatutin.narod.ru/evatutin_opt_07_matmul_st.pdf Ватутин Э.И., Мартынов И.А., Титов В.С. Оценка реальной производительности современных процессоров в задаче умножения матриц для однопоточной программной реализации // [[Известия ЮЗГУ|Известия Юго-Западного государственного университета]]. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2013. № 4. С. 11–20.]</ref>. Аналогичный подход применяется при умножении матриц с использованием [[GPU]] с оптимизацией использования разделяемой памяти ограниченного объема<ref>[http://evatutin.narod.ru/evatutin_opt_08_matmul_cuda.pdf Ватутин Э.И., Мартынов И.А., Титов В.С. Оценка реальной производительности современных видеокарт с поддержкой технологии CUDA в задаче умножения матриц // [[Известия ЮЗГУ|Известия Юго-Западного государственного университета]]. Серия: Управление, вычислительная техника, информатика. Медицинское приборостроение. 2014. № 2. С. 8–17.]</ref><ref>Параллельные вычисления на GPU. Архитектура и программная модель CUDA / Боресков А.В., Харламов А.А. Марковский Н.Д. и др. М.: изд-во Московского университета, 2012. 336 с.</ref>.
 
== Формулы ==