Поділитись:

Прилад з тиші: вивчення структури місця з навколишнього звуку

Середа, 17 листопада 2021, 05:31
Прилад з тиші: вивчення структури місця з навколишнього звуку

Люди можуть використовувати навколишні звуки, як-от вентиляційний шум, цокання годинників, щоб зрозуміти структуру трьохвимірної картини. Нещодавня стаття на arXiv.org досліджує, чи можна ці звуки використовувати для мультимодального самоконтрольованого навчання.

Про це пише сайт волинських новин Конкурент з посиланням на Technology.org.

Дослідники зібрали дані аудіо записів «в дикій природі» із тихих місць у приміщенні, типових для того, з чим зіткнеться робот під час вирішення завдань навігації. Кожен звук поєднується з відповідним записом від датчика RGB-D, який забезпечує візуальний сигнал і практичне відтворення. За допомогою набору даних було проведено експериментальне дослідження оцінки глибини. Показано, що аудіо можна використовувати для оцінки відстані до найближчих стін.

Запропонована модель може бути використана як частина простої роботизовано навігаційної системи, в якій колісний робот рухається вздовж стіни за допомогою звукових сигналів навколишнього середовища. Також показано, що аудіовізуальні записи можуть забезпечити самоконтроль для завдань оцінки глибини.

Звуки, які ми чуємо, від вентиляторів на стелі до годинників, незначно змінюються, коли ми рухаємося з місця. Ми запитуємо, чи передають ці навколишні звуки інформацію про структуру трьохвимірної сцени, і якщо так, чи є вони корисним навчальним сигналом для моделей. Щоб вивчити це, ми збираємо дані парних аудіо та RGB-D записів із різноманітних тихих місць у приміщенні. Потім ми підготовлюємо ці моделі, щоб оцінити відстань до найближчих стін, враховуючи лише звук.

Ми також використовуємо ці записи для вивчення мультимодальних уявлень за допомогою самоконтролю, навчаючи мережу асоціювати зображення з відповідними звуками. Ці результати свідчать про те, що навколишній звук передає дивовижну кількість інформації про структуру місця, і що це корисні сигнали для вивчення мультимодальних функцій.

ЧИТАЙТЕ ТАКОЖ:

Надрукувати
мітки:
коментарів