Куда применить CUDA?

29.11.2010 20:00 MaxOblivion
Печать
Нравится

На протяжении десятилетий действовал закон Мура, который гласит, что каждые два года количество транзисторов на кристалле будет удваиваться. Однако это было в далеком 1965 году, а последние 5 лет стала бурно развиваться идея физической многоядерности в процессорах потребительского класса: в 2005 году Intel представила Pentium D, а AMD – Athlon X2. Тогда приложений, использующих 2 ядра, можно было пересчитать по пальцам одной руки. Однако следующее поколение процессоров Intel, совершившее революцию, имело именно 2 физических ядра. Более того, в январе 2007 года появилась серия Quad, тогда же и сам Мур признался, что вскоре его закон перестанет действовать.

 

 

 

 

 

 

 

 

Что же сейчас? Двухядерные процессоры даже в бюджетных офисных системах, а 4 физических ядра стало нормой и это всего за 2-3 года. Частота процессоров не наращивается, а улучшается архитектура, увеличивается количество физических и виртуальных ядер. Однако идея использования видеоадаптеров, наделенных десятками, а то и сотнями вычислительных «блоков» витала давно.

И хотя перспективы вычислений силами GPU огромны, наиболее популярное решение – Nvidia CUDA бесплатно, имеет множество документаций и в целом весьма несложное в реализации, приложений, использующих эту технологию не так много. В основном это всевозможные специализированные расчеты, до которых рядовому пользователю в большинстве случаев нет дела. Но есть и программы, рассчитанные на массового пользователя, о них мы и поговорим в данной статье.

Для начала немного о самой технологии и с чем ее едят. Т.к. при написании статьи я ориентируюсь на широкий круг читателей, то и объяснить постараюсь доступным языком без сложных терминов и несколько вкратце.

CUDA (англ. Compute Unified Device Architecture) — программно-аппаратная архитектура, позволяющая производить вычисления с использованием графических процессоров NVIDIA, поддерживающих технологию GPGPU (произвольных вычислений на видеокартах). Архитектура CUDA впервые появились на рынке с выходом чипа NVIDIA восьмого поколения — G80 и присутствует во всех последующих сериях графических чипов, которые используются в семействах ускорителей GeForce, Quadro и Tesla. (с) Wikipedia.org

Входящие потоки обрабатываются независимо друг от друга, т.е. параллельно.



При этом существует разделение на 3 уровня:



Grid – ядро. Содержит одно/двух/трехмерный массив блоков.

Block – содержит в себе множество потоков (thread). Потоки разных блоков между собой взаимодействовать не могут. Для чего нужно было вводить блоки? Каждый блок по сути отвечает за свою подзадачу. Например, большое изображение (которое является матрицей) можно разбить на несколько более мелких частей (матриц) и параллельно работать с каждой частью изображения.

Thread – поток. Потоки внутри одного блока могут взаимодействовать либо через общую (shared) память, которая, кстати, куда быстрее глобальной (global) памяти, либо через средства синхронизации потоков.

Warp – это объединение взаимодействующих между собой потоков, для всех современных GPU размер Warp’а равен 32. Далее идет half-warp, являющийся половинкой warp’a, т.к. обращение к памяти обычно идет раздельно для первой и второй половины warp’a.

Как можно заметить, данная архитектура отлично подходит для распараллеливания задач. И хотя программирование ведется на языке Си с некоторыми ограничениями, на деле не все так просто, т.к. не все можно распараллелить. Нет же и стандартных функций для генерации случайных чисел (или инициализации), все это приходится реализовывать отдельно. И хотя готовых вариантов имеется в достаточном количестве, радости все это не приносит. Возможность использования рекурсии появилась сравнительно недавно.

Для наглядности была написана небольшая консольная (для минимизации кода) программа, производящая операции с двумя массивами типа float, т.е. с нецелочисленными значениями. По указанным выше причинам инициализация (заполнение массива различными произвольными значениями) производилось силами CPU. Далее с соответствующими элементами из каждого массива производилось 25 всевозможных операций, промежуточные результаты записывались в третий массив. Менялся размер массива, результаты следующие:

Всего было проведено 4 теста:

1024 элемента в каждом массиве:



Наглядно видно, что при таком малом количестве элементов толку от параллельных вычислений немного, т.к. сами вычисления проходят куда быстрее, чем их подготовка.

4096 элементов в каждом массиве:



И вот уже видно, что видеокарта в 3 раза быстрее производит операции над массивами, чем процессор. Более того, время выполнения данного теста на видеокарте не увеличилось (незначительное уменьшение времени можно сослать на погрешность).

Теперь 12288 элементов в каждом массиве:



Отрыв видеокарты увеличился еще в 2 раза. Опять же стоит обратить внимание, что время выполнения на видеокарте увеличилось
незначительно, а вот на процессоре более чем в 3 раза, т.е. пропорционально усложнению задачи.

И последний тест – 36864 элемента в каждом массиве:



В данном случае ускорение достигает внушительных значений – почти в 22 раза быстрее на видеокарте. И опять же время выполнения на видеокарте возросло незначительно, а на процессоре – положенные 3 раза, что опять же пропорционально усложнению задачи.

Если же и дальше усложнять вычисления, то видеокарта выигрывает все больше и больше. Хоть и пример несколько утрированный, но в целом ситуацию показывает наглядно. Но как упоминалось выше, не все можно распараллелить. Например, вычисление числа Пи. Существуют лишь примеры, написанные посредством метода Monte Carlo, но точность вычислений составляет 7 знаков после запятой, т.е. обычный float. Для того, чтобы увеличить точность вычислений необходима длинная арифметика, а вот тут то и наступают проблемы, т.к. эффективно это реализовать очень и очень сложно. В интернете найти примеров, использующих CUDA и рассчитывающих число Пи до 1 миллиона знаков после запятой мне не удалось. Были предприняты попытки написать такое приложение, но самый простой и эффективный метод расчета числа Пи – это алгоритм Брента — Саламина или формула Гаусса. В известном SuperPI скорее всего (судя по скорости работы и количеству итераций) используется формула Гаусса. И, судя по
тому, что SuperPI однопоточный, отсутствию примеров под CUDA и провалу моих попыток, эффективно распараллелить подсчет Pi невозможно.

Кстати, можно заметить, как в процессе выполнения вычислений повышается нагрузка на GPU, а так же происходит выделение памяти.



Теперь же перейдем к более практической пользе от CUDA, а именно существующие на данный момент программы, использующие данную технологию. В большинстве своем это всевозможные аудио/видео конвертеры и редакторы.

В тестировании использовалось 3 различных видеофайла:

 

 

 

 



Контейнер и размер первых двух файлов был .mkv и 1,55 гб, а последнего - .avi и 272 мб.

Начнем с весьма нашумевшего и популярного продукта – Badaboom. Использовалась версия – 1.2.1.74. Стоимость программы составляет $29.90.



Интерфейс программы простой и наглядный – слева выбираем исходный файл или диск, а справа – необходимое устройство, для которого будем кодировать. Есть и пользовательский режим, в котором вручную задаются параметры, он и использовался.

Для начала рассмотрим насколько быстро и качественно кодируется видео «в себя же», т.е. в то же разрешение и примерно тот же размер. Скорость будем измерять в fps, а не в затраченном времени – так удобнее и сравнивать, и подсчитывать сколько будет сжиматься видео произвольной продолжительности. Т.к. сегодня мы рассматриваем технологию «зеленых», то и графики будут соответствующие -)



Скорость кодирования напрямую зависит от качества, это очевидно. Стоит отметить, что легкое разрешение (назовем его традиционно – SD) не проблема для Badaboom – скорость кодирования в 5,5 раз превысила исходный (24 fps) фреймрейт видео. Да и даже тяжелый 1080p видеоролик программа преобразует в реальном времени. Стоит отметить, что качество итогового видео очень близко к исходному видеоматериалу, т.е. кодирует Badaboom весьма и весьма качественно.

Но обычно перегоняют видео в более низкое разрешение, посмотрим как обстоят дела в этом режиме. При снижении разрешения снижался и битрейт видео. Он составлял 9500 кбит/с для 1080p выходного файла, 4100 кбит/с для 720 p и 2400 кбит/с для 720х404. Выбор сделан исходя из разумного соотношения размер/качество.



Комментарии излишни. Если делать из 720p рип до обычного SD качества, то на перекодирование фильма длительностью 2 часа уйдет около 30 минут. И при этом загрузка процессора будет незначительной, можно заниматься своими делами не ощущая дискомфорта.

А что если перегнать видео в формат для мобильного устройства? Для этого выберем профиль iPhone (битрейт 1 мбит/с, 480х320) и посмотрим на скорость кодирования:



Нужно ли что-то говорить? Двухчасовой фильм в обычном качестве для iPhone перекодируется менее чем за 15 минут. С HD качеством сложнее, но все равно весьма быстро. Главное, что качество выходного видеоматериала остается на довольно высоком уровне при просмотре на дисплее телефона.

В целом впечатления от Badaboom положительные, скорость работы радует, интерфейс простой и понятный. Всевозможные баги ранних версий (пользовался еще бетой в 2008-ом году) вылечены. Кроме одного – путь к исходному файлу, а так же к папке, в которую сохраняется готовое видео, не должен содержать русских букв. Но на фоне достоинств программы этот недостаток незначителен.





Следующим на очереди у нас будет Super LoiLoScope. За обычную его версию просят 3 280 рублей, а за touch версию, поддерживающую сенсорное управление в Windows 7, просят аж 4 440 рублей. Попробуем разобраться за что разработчик хочет таких денег и зачем видеоредактору поддержка multitouch. Использовалась последняя версия – 1.8.3.3.

Описать интерфейс программы словами довольно сложно, поэтому я решил снять небольшой видеоролик. Сразу скажу, что, как и все видеоконвертеры под CUDA, ускорение средствами GPU поддерживается только для вывода видео в MPEG4 с кодеком h.264.

 

 

Теперь запросто можно понять, зачем же нужна поддержка сенсорных дисплеев и технологии мультитач. Более того, программа наделена многозадачностью, как бы странно это ни звучало. Как? Смотрим ролик:

 

 


Во время кодирования загрузка процессора составляет 100%, однако дискомфорта это не вызывает. Браузер и другие не тяжелые приложения не тормозят.

 

 

 



Теперь перейдем к производительности. Для начала все тоже самое, что и с Badaboom – перекодирование видео в аналогичное по качеству.



Результаты куда лучше, чем у Badaboom. Качество так же на высоте, разницу с оригиналом можно заметить только сравнивая попарно кадры под лупой.

Далее перейдет к перекодированию с понижением разрешения и битрейта:



Ого, а вот тут LoiloScope обходит Badaboom в 2,5 раза. При этом можно запросто параллельно резать и кодировать другое видео, читать новости и даже смотреть кино, причем даже FullHD проигрываются без проблем, хоть загрузка процессора и максимальна.

Теперь же попробуем сделать видео для мобильного устройства, профиль назовем так же, как он назывался в Badaboom – iPhone (480x320, 1 мбит/с):



Никакой ошибки нет. Все перепроверялось несколько раз, каждый раз результат был аналогичным. Скорее всего, это происходит по той простой причине, что SD файл записан с другим кодеком и в другом контейнере. При перекодировании видео сначала декодируется, разбивается на матрицы определенного размера, сжимается. ASP декодер, использующийся в случае с xvid, медленнее, чем AVC (для h.264) при параллельном декодировании. Однако и 192 fps – это в 8 раз быстрее, чем скорость исходного видео, серия длительностью 23 минуты сжимается менее чем за 4 минуты. Ситуация повторялась и с другими файлами, пережатыми в xvid/DivX.

LoiloScope оставил о себе только приятные впечатления – интерфейс, несмотря на свою необычность, удобный и функциональный, а скорость работы выше всяких похвал. Несколько расстраивает относительно бедный функционал, но в зачастую при простом монтаже требуется лишь немного подкорректировать цвета, сделать плавные переходы, наложить текст, а с этим LoiloScope отлично справляется. Несколько пугает и цена – более $100 за обычную версию нормально для зарубежья, но нам такие цифры пока кажутся несколько дикими. Хотя, признаюсь, что если бы я, например, часто снимал и монтировал домашнее видео, то возможно и задумался над покупкой. Заодно, кстати, проверил возможность редактирования HD (а точнее AVCHD) контента прямо из видеокамеры без предварительного конвертирования в другой формат, у LoiloScope никаких проблем с файлами типа .mts не выявлено.





Переходим к другому видеоконвертеру – Movavi Video Converter 10. Стоит отметить, что более популярная 9-ая версия данного конвертера хоть и заявляет о поддержке CUDA, на деле же работает совершенно нестабильно, нормальная поддержка данной технологии появилась только в 10-ой версии. Цена одной программы по специальной акции до 10-го декабря - 699 рублей, далее цена будет 1199 рублей. Цена программы в комплекте с остальными программами сейчас $60 (а раньше комплект стоил $230). А еще отдельно придется отдать $20 за плагин Movavi Turbo, который по заверениям разработчика ускоряет кодирование видео на последних процессорах Intel в 4 раза. Поддержка CUDA присутствует и в базовой версии без плагинов.

 



Подобный интерфейс встречается во многих видеоконвертерах, ничего необычного в нем нет. Неудобно, что битрейт задается не конкретным числом, а перемещая ползунок в графе Quality/Size, при этом какой именно выставляется битрейт можно понять только посчитав исходя из продолжительности видео и предполагаемого размера. В настройках кодека можно выбрать либо переменный битрейт, либо задать конкретное число, но на итоговый результат это все не влияет – программа кодирует видео исходя из положения того самого ползунка.

 

UPD - разработчики связались со мной и уточнили ситуацию. Для того, чтобы задать битрейт вручную, необходимо не трогать ползунок вообще или сбросить его на значение по-умолчанию. Тогда настройки внутри самого кодека должны корректно работать.
Отличительная особенность от Badaboom и MediaShow - возможность выбрать необходимый для кодирования фрагмент видео. Зачастую это большой плюс программе.

 

В первую очередь проверим насколько быстро видео кодируется «само в себя»:



Результаты схожи с теми, что показал LoiloScope.

Теперь с понижением разрешения и битрейта:



Результаты в 2-2,5 раза хуже, чем у LoiloScope. Да и качество несколько хуже при сравнимом размере. Однако, стоит отметить, что Movavi несколько быстрее справляется с задачей, чем Badaboom.

А теперь так же попробуем создать профиль для мобильного устройства (480х320, ~1 мбит/с):



На этот раз Movavi проигрывает и Badaboom. Качество видео при этом несколько хуже, чем у LoiloScope и Badaboom.

Загрузка процессора в процессе преобразования видео была около 50%.

Учитывая сравнительно высокую стоимость Movavi, среднюю скорость кодирования, а так же нестабильность даже последних версий, покупка данного продукта весьма сомнительна.




Скажу несколько слов о TMPGEnc. Это просто видеоредактор, но CUDA в нем используется только для наложение фильтров. Однако отсутствие возможности редактировать, например, .mkv файлы сводит на нет всю пользу данного продукта. И хотя скорость кодирования на CPU довольно приличная (порядка 100 fps в случае SD файла в такое же качество, кодек h.264), существует большое количество платных и бесплатных видеоредакторов с более богатым функционалом и не уступающим по скорости.







Но по-настоящему меня потряс MediaShow Expresso от CyberLink. При цене в $30, данный видеоконвертер имеет очень приятный интерфейс, множество стандартных профилей под любое устройство, а так же весьма богатые возможности по созданию собственных предустановок. Признаюсь, что это единственный конвертер, где я сразу же за несколько секунд создал необходимые мне профили для тестов. В остальных же часть все равно приходилось постоянно задавать вручную, либо создание профиля было более запутанным и удобнее было задавать параметры каждый раз самостоятельно.



Удобство удобством, но нам же важнее скорость, верно?

Кодируем исходные файлы с сохранением качества:



А со скоростью все отлично, тут и добавить нечего. В данном тесте это лучшие результаты, даже FullHD кодируется в 3 раза быстрее оригинального фреймрейта.

Далее кодирование с понижением разрешения и битрейта:



До LoiloScope не дотягивает, конечно, но результаты все равно очень впечатляющие. Загрузка процессора во время выполнения всех тестов была около 50-60%. Качество итогового видео во всех случаях была на высоком уровне, сравнимо с LoiloScope и лучше Movavi.

А теперь для мобильного устройства. В MediaShow множество встроенных профилей, в том числе и для iPhone, но в готовых профилях не видно битрейт и разрешение, по этой причине использовался собственный профиль (480х320, 1 мбит/с):



LoiloScope опять же быстрее, разве что в MediaShow более продвинутый ASP декодер, за счет чего видео из xvid кодируется куда быстрее.

В качестве итога скажу, что MediaShow Expresso – отличный продукт. Меня он подкупил своим простым и красивым интерфейсом, да и скорость работы на высоком уровне, местами даже лучшая среди других конвертеров.

Понимая, что анализировать кучу графиков с целью понять, какой же конвертер лучше, довольно сложно, я решился сравнить их в лоб. Т.к. кодек используется один и тот же (h.264), битрейт был схожим, а итоговый размер получался практически одинаковым для каждого конвертера, то данный подход позволителен. Посчитаем среднюю производительность для каждого разрешения, сложив результаты в данном разрешении по каждому конвертеру и поделив на количество тестов с данным разрешением. Например, с SD разрешением было всего 2 теста – кодирование без потери качества и для мобильного устройства. А вот для 1080p уже 4 – без потери качества, в 720p, в SD и для мобильного устройства.



Если смотреть на HD разрешение, то LoiloScope явный лидер, MediaShow отстал на 10-20%. Badaboom и Movavi явные аутсайдеры. В SD разрешении вырвался вперед MediaShow, остальные участники показали примерно равные результаты.

Что имеет в итоге? LoiloScope и MediaShow заслуживают особого внимания. И хотя возможности по редактированию у LoiloScope относительно скудные, но их хватит для многих рядовых задач, а скорость кодирования видео лучшая среди всех.
Если же вам нужен простой конвертер, то идеальным выбором станет MediaShow. Он прост и удобен, с HD файлами работает незначительно медленнее, чем с LoiloScope, а с SD контентом, которого сейчас очень много, быстрее в 1,5 раза.
Что же касается Badaboom, то при всей своей раскрученности он оказался в 2 раза медленнее вышеописанных участников, при этом по удобству у MediaShow он явно не выигрывает. Еще хуже Movavi – он незначительно быстрее Badaboom, но неудобнее, менее стабилен, дороже.




Вне конкурса мне хотелось бы рассмотреть vReveal, который в первую очередь предназначен для тех случаев, когда видео снималось с рук и без стабилизатора, т.е. цифровой стабилизатор изображения. Стоимость программы составляет почти 1 300 рублей или $40.



Почти все функции доступны и в бесплатной версии, за исключением фильтра Clean, который убирает шумы и артефакты с видео. Основное ограничение – на качество вывода видео, в бесплатной версии можно сохранять только в 480p + будет периодически появляться логотип vReveal.

Ожидать чудес не приходиться, чудес и не будет. Наглядно показать разницу довольно сложно, но она есть. В целом, если просто прогонять все любительские видеозаписи, попутно повышая резкость и немного контрастность, то качество итогового материала улучшится. Но если нужно что-то более серьезное, то vReveal не подойдет. Смею предположить, что нужно что-нибудь вроде ручного покадрового монтажа, чтобы дейсвительно стабилизировать изображение. С другой стороны, небольшие колебания видео, так называемый «тремор», он гасит неплохо.

В пример был сделан небольшой видеоролик, где осуществляется переход с оригинала на vReveal и обратно несколько раз. Если что, то на видео не я -) Снималось на D90 + 50 1.8D из совершенно неудобного положения. Стоит отметить, что vReveal не понимает MJPEG. Изображение «плавает» в первую очередь из-за построчного сканирования, которое применяется при записи видео на DSLR. 42 секунды видео vReveal преобразовал за 35 секунд.

 

 

 


Пару слов скажу и о CyberLink PowerDirector, стоимостью $70 за обычную версию и $100 за версию с поддержкой x64 архитектуры.



Этот видеоредактор тоже поддерживает CUDA, ролик для демонстрации vReveal длительностью 24 секунды был готов через 6 секунд. Power Director можно назвать продвинутой заменой стандартного Movie Maker, с неплохим внешним видом, он удобнее и быстрее. Более того, к нему можно найти сотни всевозможных плагинов, так что вещь стоящая.

На этом хочется подвести итог: у технологии CUDA действительно огромный потенциал и настанет время, когда GPU будут более широко использоваться в повседневных задачах, а не только в математических расчетах. Сейчас же программ не так много, но стоящие есть, их я уже отметил выше. В следующей части статьи будет детально разобрана польза от PhysX, дает ли эта технология существенные визуальные улучшения, сколько стоящих игр с поддержкой данной технологии и что еще только готовиться разработчиками.

 

 

 

 

Публикация осуществлена по разрешению автора статьи и от его имени (никнейма), оригинал располагается на ПС оверклокеров.

Орфография и пунктуация автора оставлены без изменений

 

       
}

Теги:
 
Последние материалы на сайте: