Картинка из аудио - хоть кто-то пробовал ? - SVOBODA-ON!

mumu-and-gerasim · 03.09.2023, 14:35

Ну берём raw audio pcm8 ( 8 бит на сэмпл ).
И берём rgb пиксель без альфа-канала ( 8 бит на компоненту цвета RGB ).
И из каждых трёх сэмплов аудио делаем один пиксель картинки. Размер картинки можно какой-нибудь условно реалитичный задать - хоть 640 на 480. Ну и заполняем матрицу цветами из сэмплов аудио по три сэмпла на пиксель хоть по строкам , хоть по столбцам.

mumu-and-gerasim · 03.09.2023, 14:36

Ну и получается визуализация аудио для глухих.
Хотя можно и обратный процесс - видео для слепых в виде аудиозаписи.

В упор не понимаю зачем это нужно. Лично мне было надо - когда кормил модель нейросети в TensorFlow. Там в примере она была настроена обучаться на последовательности картинок , каждая картинка размером 240x240.

Но ведь там "шизомилитаристкое" применение есть - рисунок или карту-схему или фотографию текста с листа бумаги можно передать как "аудиозапись" по "аудиоканалу". ( хоть через громкоговоритель ). И потом восстановить из аудиозаписи видео. - я так с фотографиями пробовал.

Ну там можно интереснее химичить - пиксели можно ведь не обязательно "линейно" в матрице размещать , а можно и по кругу. Тогда внешне всё на грампластинку будет похоже.

Бывший · 03.09.2023, 14:50

Сцылку! Или пример, как всё это работает. А то ничего не понятно, но очень интересно.

mumu-and-gerasim · 03.09.2023, 15:03

Цитата:

Сообщение от Бывший

Сцылку! Или пример, как всё это работает. А то ничего не понятно, но очень интересно.

ну что там непонятного ? Картинка "из фотоаппарата". 2D ( двумерная ) в виде матрицы. У каждой точки картинки есть цвет. Цвет кодируется "как в телевизоре" - компонента красного , компонента зелёного , компонента синего. Каждая компонента кодируется числом от 0 до 255 ( 8 бит ).
Оцифрованое аудио с микрофона ( raw audio ) кодируется т.н. сэмплами. Простейший ( но очень низкокачественный ) вариант - 8 бит на сэмпл ( число от 0 до 255 ). Сэмплы идут подряд ( 1 канал - моно ). Такие мелочи как sample rate и т.д. - с этим не заморачиваемся , потому что будем их фиксировать для устройства записи аудио.

Получается , что на аудиопоток можно смотреть ( будет похож на царапины на стене ),
а фотография может по-настоящему "звучать". ( на музыку будет не очень похоже , а просто будет булькать-шелестеть-трещать-гудеть. В "Необыкновенном концерте" у Аркадия Обломова была фраза: "Человек - это звучит" ).

Ну можно открыть графический редактор на компе - написать там внутри кисточкой "нецензурую брань" , сохранить картинку , а потом из картинки сделать "аудиоряд" и воспроизвести это аудио в плеере. ( формат wav с RIFF-заголовком , где указывается 8 bit per sample и задаётся sample rate )

EvgeniyO · 03.09.2023, 15:11

Со мной когдато учился парень который увликался не стандартной графикой. Он правдаделал картинку из звука, примерно по такой схеме он и работал.
Само по себе интересно и выглядит красиво но по виду картинки нельзя понять какой звук был изначально. Может быть если бы он делал из звука видио(у звука и видео есть протяжонность во времени) было бы более интересно

Бывший · 03.09.2023, 16:36

Цитата:

Сообщение от mumu-and-gerasim

ну что там непонятного ? Картинка "из фотоаппарата". 2D ( двумерная ) в виде матрицы. У каждой точки картинки есть цвет. Цвет кодируется "как в телевизоре" - компонента красного , компонента зелёного , компонента синего. Каждая компонента кодируется числом от 0 до 255 ( 8 бит ).
Оцифрованое аудио с микрофона ( raw audio ) кодируется т.н. сэмплами. Простейший ( но очень низкокачественный ) вариант - 8 бит на сэмпл ( число от 0 до 255 ). Сэмплы идут подряд ( 1 канал - моно ). Такие мелочи как sample rate и т.д. - с этим не заморачиваемся , потому что будем их фиксировать для устройства записи аудио.

Получается , что на аудиопоток можно смотреть ( будет похож на царапины на стене ),
а фотография может по-настоящему "звучать". ( на музыку будет не очень похоже , а просто будет булькать-шелестеть-трещать-гудеть. В "Необыкновенном концерте" у Аркадия Обломова была фраза: "Человек - это звучит" ).

Ну можно открыть графический редактор на компе - написать там внутри кисточкой "нецензурую брань" , сохранить картинку , а потом из картинки сделать "аудиоряд" и воспроизвести это аудио в плеере. ( формат wav с RIFF-заголовком , где указывается 8 bit per sample и задаётся sample rate )

Ну суть я уловил. Звук кодируется в низком битрейте, записывается в файл, а затем данные файла переводятся в формат, который можно прочитать какой-нибудь графической прогой. Или наоборот, графический файл перекодировать в формат для проигрывания аудиоплеером. Ну получается графическое, или звуковое непонятно-что.
В чем смысл??? Вот это я совершенно не могу понять.

Похожие проги я видел и раньше, давным давно. Можно было текст или звук встроить в какую-нибудь графическую картинку, а потом с помощью той же проги извлечь всё в исходном виде. Стеганография называется. Правда, если вставлять в картинку звук, то картинка начинала весить подозрительно много.

Бывший · 03.09.2023, 16:39

Кстати, некий своеобразный аналоговый аналог этой технологии использовался раньше в кинопленках, там идёт специальная аудиодорожка, на которой записан звук в оптическом формате.

mumu-and-gerasim · 03.09.2023, 16:44

Цитата:

Сообщение от Бывший

Кстати, некий своеобразный аналоговый аналог этой технологии использовался раньше в кинопленках, там идёт специальная аудиодорожка, на которой записан звук в оптическом формате.

Нет - это совсем не аудиодорожка , а собственно изображение. Или "слой" в multi-layer image

mumu-and-gerasim · 03.09.2023, 16:47

Цитата:

Сообщение от Бывший

Ну суть я уловил. Звук кодируется в низком битрейте, записывается в файл, а затем данные файла переводятся в формат, который можно прочитать какой-нибудь графической прогой. Или наоборот, графический файл перекодировать в формат для проигрывания аудиоплеером. Ну получается графическое, или звуковое непонятно-что.
В чем смысл??? Вот это я совершенно не могу понять.

Похожие проги я видел и раньше, давным давно. Можно было текст или звук встроить в какую-нибудь графическую картинку, а потом с помощью той же проги извлечь всё в исходном виде. Стеганография называется. Правда, если вставлять в картинку звук, то картинка начинала весить подозрительно много.

Смысл в том , чтобы скормить аудио работающей нейросети , которая обрабатывает последовательности картинок и самообучается.
Ну там приколы с подавлением помех ещё - в графическом редакторе просто "пиксели шума" убрать.
Самое загадочное - передавать картинки ультразвуком под водой.

Бывший · 04.09.2023, 03:02

Цитата:

Сообщение от mumu-and-gerasim

Смысл в том , чтобы скормить аудио работаюзнй нейросети , которая обрабатывает последовательности картинок и самообучается.
Ну там приколы с подавлением помех ещё - в графическом редакторе просто "пиксели шума" убрать.
Самое загадочное - передавать картинки ультразвуком под водой.

Зачем это нейросети, какой результат хотите получить?

mumu-and-gerasim · 04.09.2023, 15:22

Цитата:

Сообщение от EvgeniyO

Со мной когдато учился парень который увликался не стандартной графикой. Он правдаделал картинку из звука, примерно по такой схеме он и работал.
Само по себе интересно и выглядит красиво но по виду картинки нельзя понять какой звук был изначально. Может быть если бы он делал из звука видио(у звука и видео есть протяжонность во времени) было бы более интересно

но мне изначально это было нужно для работающей нейросети в TensorFlow - там на входе датасет из последовательности картинок. Но просто хоть куда-то ещё хочется присобачить - раз работает. ( там даже обычного Open JDK с Java 11 на всё хватает )

P.S. Кстати - протяжённость во времени как раз очень просто. Там sample rate на frame per second автоматически отображается. ( ну а программа ffmpeg из последовательности картинок позволяет делать видео. Хоть даже mpeg2 ts. Самое прикольное - делать это на смартфоне с Android. Правда там очень длинная программа получается - почти 24 мегабайта , если использовать ffmpeg toolkit )

Бывший · 04.09.2023, 15:25

Чего добиться-то хотите? Что должно получиться? Для чего это?

А то мало ли что... сейчас занимаетесь с нейросетью непонятно чем, а потом бац! - восстание машин, терминатор-3.

mumu-and-gerasim · 04.09.2023, 15:26

Цитата:

Сообщение от Бывший

Зачем это нейросети, какой результат хотите получить?

нейросети "хвастаются" , что кота от собаки по таким картинкам могут отличить. ( в учебном примере ). Раз могут отличить кота от собаки - пусть попробуют марш из оперетты от похоронного марша Шопена отличить , например.
( я не утрирую - есть вот задача обучения музыкантов и обнаруживать "фальшиво взятые ноты". В конце-концов ведь обычная задача классификации-кластеризации из AI. И на самом деле ничем не отличается от различения кота от собаки на рисунке. )

mumu-and-gerasim · 04.09.2023, 15:38

Цитата:

Сообщение от Бывший

А то мало ли что... сейчас занимаетесь с нейросетью непонятно чем, а потом бац! - восстание машин, терминатор-3.

ну там дело даже не в "восстании машин" - можно посмотреть на проблему в контексте SETI и CETI ( поиск сигналов от внеземного разума и контакт с внеземным разумом ).

Или даже такая постановка задачи - как понять , что "сигнальная система" является "языком" ( communication language ) ?

Бывший · 04.09.2023, 17:05

Цитата:

Сообщение от mumu-and-gerasim

нейросети "хвастаются" , что кота от собаки по таким картинкам могут отличить. ( в учебном примере ). Раз могут отличить кота от собаки - пусть попробуют марш из оперетты от похоронного марша Шопена отличить , например.
( я не утрирую - есть вот задача обучения музыкантов и обнаруживать "фальшиво взятые ноты". В конце-концов ведь обычная задача классификации-кластеризации из AI. И на самом деле ничем не отличается от различения кота от собаки на рисунке. )

Для этого не нужно перекодировать аудиоформат в графику. или грфику в формат аудио. Машине вообще всё равно что с чем сравнивать, для нее всё это - лишь цифры. Загружаете в нейросеть картинки, и учите ее различать собак и кошек, хотя вроде нейросеть уже это умеет. Загружаете Шопена и Штрауса, и учите нейросеть различать и их. Всё, не надо ничего перекодировать.

mumu-and-gerasim · 04.09.2023, 17:28

Цитата:

Сообщение от Бывший

Для этого не нужно перекодировать аудиоформат в графику. или грфику в формат аудио. Машине вообще всё равно что с чем сравнивать, для нее всё это - лишь цифры. Загружаете в нейросеть картинки, и учите ее различать собак и кошек, хотя вроде нейросеть уже это умеет. Загружаете Шопена и Штрауса, и учите нейросеть различать и их. Всё, не надо ничего перекодировать.

Машине как раз не всё равно. Для анализа изображений в "системах технического зрения роботов" - свои собственные алгоритмы и методы нормализации данных. Никто с "фильтрами Каллмана" и прочей радостью из адуио ( и радиотехники ) не заморачивается особенно. И быстрым преобразованием Фурье при распознавании изоражений никто не злоупотребляет. Именно потому и хочется перевести аудио в видео - чтобы использовать совсем другие методы ( в т.ч. из теории формальных грамматик ).

Бывший · 04.09.2023, 17:46

Ммм... дэээ...
Ладно.

mumu-and-gerasim · 04.09.2023, 17:57

Цитата:

Сообщение от Бывший

Ммм... дэээ...
Ладно.

просто там намного меньшая "вычислительная мощность" нужна - если картинки анализировать "не-радиотехническими методами". ( не нужно все эти синусы-косинусы и умножения с плавающей точкой ).

pornocrat · 05.09.2023, 00:08

mumu-and-gerasim, я ничего не понял, но чем визуализация винамп не устраивает?

pornocrat · 05.09.2023, 00:12

Грубо говоря - визуальный эквалайзер изобрели вместе с оциллографом.

mumu-and-gerasim · 05.09.2023, 01:35

Цитата:

Сообщение от pornocrat

mumu-and-gerasim, я ничего не понял, но чем визуализация винамп не устраивает?

Нужна ведь не визуализация сама по себе была , а просто из аудио сделать входные данные для нейросети , которая обучается по последовательностям картинок. А у меня входные данные - звукозаписи. Ну вот и ...

mumu-and-gerasim · 05.09.2023, 01:43

Цитата:

Сообщение от pornocrat

Грубо говоря - визуальный эквалайзер изобрели вместе с оциллографом.

Но данные ведь именно с осциллографа нужны ( хоть там и делается АЦП - ADC ).
Но оцифрованный звук - там как раз АЦП уже сделано. Но с рядами , свёртками , быстрым преобразованием Фурье и прочими радиотехническими радостями ничего делать не хочется , потому что рядом вот она - как бы работающая нейросеть ( к которой лезем через google API. Но там на входе рисунки со всякими пчёлами и прочими тараканами. Но для unsupervised ML ( это когда нет никаких образцов , а как раз нужно выделить то , из чего можно создавать образцы ) ведь всё равно , что там нарисовано.

"Источник вдохновения" ведь где-то здесь - https://github.com/tensorflow/tensor...abelImage.java

если бы ещё этот источник в... нормально собирался в новой версии TensorFlow ...

Там строится т.н. "граф" в терминологии TensorFlow , но используется не Python3 , а Java 11 вместе с TensorFlow API для Java. В том примере ровно одна картинка скармливается модели.

Бывший · 05.09.2023, 14:03

mumu-and-gerasim

Несколько веков назад тебя бы казнили

mumu-and-gerasim · 05.09.2023, 17:56

Цитата:

Сообщение от Бывший

mumu-and-gerasim

Несколько веков назад тебя бы казнили

против костра февральским вечером я даже не возражаю.

Кое у кого несколько компов сгорело примерно месяц назад во время проведения ML Challenge с использованием TensorFlow и всяких идиотских GPU вместо NPU.
Правда они к компам цепляли такие китайские хреновины с RISC-V через USB. По ходу ML сгорал не только порт USB но и какой-то там "южный мост".

Всеволод · 06.09.2023, 09:05

А слабо нейросети самой сгенерить картинку по аудио?

mumu-and-gerasim · 06.09.2023, 16:17

Цитата:

Сообщение от Всеволод

А слабо нейросети самой сгенерить картинку по аудио?

те учебные из примеров у них картинки классифицируют в основном.
Вот эта зараза тоже ( примеры на python ) - https://sihamtabik.github.io/tutorial.html

Для всяких там интерактивных карт актуальнее не "генерить картинку" , а раскрашивать картинку - в зависимости от того , сколько трупов похоронено на соответствующем участке кладбища , например. ( простейший вариант использования элементов AR/VR. AR - augmented reality ( изменённая реальность ) )

03.09.2023, 14:35	#1
mumu-and-gerasim F Регистрация: 09.10.2014 Сообщений: 25,022	Картинка из аудио - хоть кто-то пробовал ? Ну берём raw audio pcm8 ( 8 бит на сэмпл ). И берём rgb пиксель без альфа-канала ( 8 бит на компоненту цвета RGB ). И из каждых трёх сэмплов аудио делаем один пиксель картинки. Размер картинки можно какой-нибудь условно реалитичный задать - хоть 640 на 480. Ну и заполняем матрицу цветами из сэмплов аудио по три сэмпла на пиксель хоть по строкам , хоть по столбцам. __________________ Серебряная пуля - дура , а осиновый кол - молодец! Именем его императорского величества объявляю ревизию сему сумасшедшему дому! Нет, Воронов, ты меня не возьмешь!

03.09.2023, 14:36	#2
mumu-and-gerasim F Регистрация: 09.10.2014 Сообщений: 25,022	Ну и получается визуализация аудио для глухих. Хотя можно и обратный процесс - видео для слепых в виде аудиозаписи. В упор не понимаю зачем это нужно. Лично мне было надо - когда кормил модель нейросети в TensorFlow. Там в примере она была настроена обучаться на последовательности картинок , каждая картинка размером 240x240. Но ведь там "шизомилитаристкое" применение есть - рисунок или карту-схему или фотографию текста с листа бумаги можно передать как "аудиозапись" по "аудиоканалу". ( хоть через громкоговоритель ). И потом восстановить из аудиозаписи видео. - я так с фотографиями пробовал. Ну там можно интереснее химичить - пиксели можно ведь не обязательно "линейно" в матрице размещать , а можно и по кругу. Тогда внешне всё на грампластинку будет похоже. __________________ Серебряная пуля - дура , а осиновый кол - молодец! Именем его императорского величества объявляю ревизию сему сумасшедшему дому! Нет, Воронов, ты меня не возьмешь! Последний раз редактировалось mumu-and-gerasim; 03.09.2023 в 14:47.

05.09.2023, 00:08	#19
pornocrat F Регистрация: 03.11.2016 Сообщений: 18,091	mumu-and-gerasim, я ничего не понял, но чем визуализация винамп не устраивает? __________________ GuTTJonnDeerMar В игноре

05.09.2023, 00:12	#20
pornocrat F Регистрация: 03.11.2016 Сообщений: 18,091	Грубо говоря - визуальный эквалайзер изобрели вместе с оциллографом. __________________ GuTTJonnDeerMar В игноре

06.09.2023, 09:05	#25
Всеволод Moderator Регистрация: 22.03.2014 Сообщений: 34,430	А слабо нейросети самой сгенерить картинку по аудио? __________________ Ребята, давайте жить дружно!

03.09.2023, 14:50	#3
Бывший F Регистрация: 25.03.2023 Сообщений: 4,908	Сцылку! Или пример, как всё это работает. А то ничего не понятно, но очень интересно.

03.09.2023, 15:11	#5
EvgeniyO F Регистрация: 22.03.2014 Сообщений: 6,360	Со мной когдато учился парень который увликался не стандартной графикой. Он правдаделал картинку из звука, примерно по такой схеме он и работал. Само по себе интересно и выглядит красиво но по виду картинки нельзя понять какой звук был изначально. Может быть если бы он делал из звука видио(у звука и видео есть протяжонность во времени) было бы более интересно

03.09.2023, 16:39	#7
Бывший F Регистрация: 25.03.2023 Сообщений: 4,908	Кстати, некий своеобразный аналоговый аналог этой технологии использовался раньше в кинопленках, там идёт специальная аудиодорожка, на которой записан звук в оптическом формате.

04.09.2023, 15:25	#12
Бывший F Регистрация: 25.03.2023 Сообщений: 4,908	Чего добиться-то хотите? Что должно получиться? Для чего это? А то мало ли что... сейчас занимаетесь с нейросетью непонятно чем, а потом бац! - восстание машин, терминатор-3.

04.09.2023, 17:46	#17
Бывший F Регистрация: 25.03.2023 Сообщений: 4,908	Ммм... дэээ... Ладно.

05.09.2023, 14:03	#23
Бывший F Регистрация: 25.03.2023 Сообщений: 4,908	mumu-and-gerasim Несколько веков назад тебя бы казнили

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)