W systemach IoT wzrasta popularność wykorzystania splotowych sieci neuronowych do analizy danych bezpośrednio u źródła.
Połączone urządzenia, czyli internet rzeczy (IoT), w ciągu ostatnich kilku lat szybko się rozpowszechniły i według ostatnich prognoz do roku 2035 pojawi się jeszcze trylion takich urządzeń w różnych segmentach rynku. Wykorzystywane dzisiaj urządzenia IoT składają się zazwyczaj z czujników zbierających dane, takich jak: dźwięk, obraz, temperatura, wilgotność, lokalizacja GPS i przyspieszenie. Następnie są one przetwarzane przez narzędzia analityczne w chmurze, tak aby umożliwić wykorzystanie szerokiego zakresu aplikacji i przesyłane do innych węzłów lub do chmury.
Wraz ze wzrostem liczby węzłów IoT maleje przepustowość sieci oraz wzrasta opóźnienie w działaniu aplikacji. Ponadto wykorzystanie chmury sprawia, że wdrażanie aplikacji IoT w regionach o ograniczonej lub zawodnej łączności jest trudne a czasami nawet niemożliwe. Jednym z rozwiązań tego problemu jest przetwarzanie danych na krawędzi, wykonywane bezpośrednio w źródle danych, to znaczy w węźle brzegowym sieci IoT. Coraz powszechniejsze staje się wykorzystanie w tym celu splotowych sieci neuronowych CNN (Convolutional Neural Network), które przeprowadzają analizę danych bezpośrednio u źródła, redukując tym samym opóźnienia a także oszczędzając zużycie energii potrzebne do transmisji danych.
Firma ARM opublikowała niedawno nową bibliotekę CMSIS-NN stworzoną specjalnie dla takich sieci. CMSIS-NN to zbiór wydajnych jąder (kerneli) sieci neuronowych, opracowanych w celu zwiększenia wydajności i zminimalizowania zużycia pamięci przez sieci neuronowe. W celu oceny wnioskowania CMSIS-NN użyto procesorów ARM Cortex-M przeznaczonych dla inteligentnych urządzeń brzegowych IoT. Przeprowadzone testy na rdzeniu ARM Cortex-M7 wykazały 4,6-krotny wzrost wydajności/przepustowości i 4,9-krotną poprawę efektywności energetycznej w stosunku do podstawowego kernela.
Aby zweryfikować te dane, firma GreenWaves Technologies przeprowadziła własne testy porównawcze, wykorzystując, opracowany przez siebie i wprowadzony na rynek na początku 2018 roku, procesor GAP8. Procesor oparty jest na architekturze RISC-V i zoptymalizowany pod kątem przetwarzania obrazu i dźwięku, w tym wnioskowania z użyciem splotowej sieci neuronowej (CNN).
Nowy układ to wysoce oszczędny w pobór energii System-on-a-Chip, umożliwiający masowe wdrażanie tanich i inteligentnych urządzeń, które przechwytują, analizują, klasyfikują i działają na połączeniu różnych źródeł danych, takich jak obrazy, dźwięki lub wibracje. GAP8 łączy w sobie wszystko, co niezbędne do obsługi czujników: wstępne przetwarzanie, analizę i wydajną pracę na rozbudowanych źródłach danych. Posiada 8 rdzeni oraz akcelerator HWCE (Hardware Convolution Engine). Dzięki temu GAP8 posiada wysoką wydajność energetyczną, która umożliwia działanie urządzeń IoT na akumulatorach przez wiele lat, zapewniając tym samym niskie koszty instalacji i eksploatacji. Nowy procesor kieruje się do produktów przemysłowych i konsumenckich integrujących sztuczną inteligencję i zaawansowane funkcje, takie jak rozpoznawanie obrazu, liczenie ludzi i przedmiotów, monitorowanie stanu maszyn, ochrona domów i mieszkań, rozpoznawanie mowy, robotyka konsumencka, urządzenia do noszenia i inteligentne zabawki.
Testom porównawczym wydajności obliczeniowej poddano dwa mikrokontrolery GAP8 i STM32 F7 oparty na rdzeniu ARM Cortex-M7. W obu przypadkach wykorzystano ten sam graf sieci neuronowej wyszkolonej w zestawie danych CIFAR-10, składający się z 60 000 kolorowych obrazów 32×32 podzielonych na 10 klas. Firma ARM w swoich testach wykorzystała również mikrokontroler STM32 F7. Układ F7 produkowany jest w technologii 90 nm, która jest szczególnie mało energooszczędna, kiedy wykorzystujemy w testach maksymalną prędkość 217 MHz. Dla uzyskania większej wiarygodności rezultatów w testach poboru mocy wykorzystano układ STM32 H7, który posiada maksymalną częstotliwość taktowania równą 400 MHz. Wykorzystując z tego jedynie 217 MHz zagwarantowano dużo mniejsze zużycie energii i porównywalność wyników. STM32 H7 bazuje na tym samym rdzeniu co ARM M7, co gwarantuje podobny cykl pracy jak w F7. Dodatkowo układ wytwarzany jest w technologii 40 nm, która jest dużo bardziej bliższa technologii 55-nanometrowego procesu TSMC zastosowanego w układzie GAP8.
Źródło: evertiq.pl