
Vykdymo idėja vietiniai dirbtinio intelekto agentai ESP32 įrenginyje Tai nebėra mokslinė fantastika ar kelių techninės įrangos entuziastų eksperimentas. Tarp tokių sistemų kaip ESP-Claw ir PycoClaw, MCP pagrindu sukurtų architektūrų ir „pasidaryk pats“ projektų, skirtų balso asistentams ir virtualiems personažams, ekosistema pakankamai subrendo, kad galėtų pasiūlyti rimtus sprendimus daiktų interneto, namų automatizavimo ir net lengvosios pramonės aplinkoje.
Šiame straipsnyje mes nuleisime visą tą visatą į žemę: Ką reiškia turėti dirbtinio intelekto agentus ESP32 įrenginyje?Kokios egzistuoja galimybės (ESP-Claw, PycoClaw ir naminiai variantai su LangChain arba MCP), kokius techninės įrangos apribojimus jos kelia ir kokiais atvejais jos iš tiesų yra prasmingos. Visa tai pateikiama praktiškai, draugišku tonu ir nepamirštant nei skaičių, nei dizaino iššūkių.
Dirbtinis intelektas debesijos periferijoje su ESP32: kodėl intelektas palieka debesį
Pastaraisiais metais dirbtinis intelektas pamažu atsisakė modelio „viskas debesyje“ ir perejo prie periferinių technologijų, kur Įrenginiai veikia autonomiškai ir mažiau priklauso nuo išorinių serverių. Ši tendencija labai aiški daiktų interneto pasaulyje: mažesnis delsos laikas, daugiau privatumo ir labiau kontroliuojamas energijos suvartojimas.
Šiam pokyčiui puikiai tinka tokie pasiūlymai kaip ESP-Claw ir PycoClaw, siekiant Paleiskite vietinius dirbtinio intelekto agentus ESP32 mikrovaldikliuoseJie neketina konkuruoti su didelėmis teisės magistro (LLM) įmonėmis duomenų centruose, o siūlo lengvas, integruotas ir visada prieinamas smegenis automatizavimui, išmaniesiems jutikliams ar mažiems robotams.
Įprastoje krašto dirbtinio intelekto konfigūracijoje ESP32 veikia kaip išmanusis mazgas tinklo krašteJis gali priimti sprendimus remdamasis jutiklių duomenimis, reaguoti į įvykius, vykdyti valdymo logiką ir debesijos paslaugomis naudotis tik tada, kai reikia sudėtingo modelio arba intensyvaus apdorojimo (transkribavimo, sudėtingo samprotavimo, pažangios kalbos sintezės ir kt.).
Šis hibridinis metodas, kai dalis srauto veikia įrenginyje, o dalis – serveriuose, leidžia saugoti jautrius duomenis lokaliai, mažinant tinklo srautą ir gerinant naudotojo patirtį, o tai yra labai svarbu namų automatizavimo, pramonės ar sveikatos apsaugos srityse.
ESP32 kaip dirbtinio intelekto agentų platforma: apribojimai ir stipriosios pusės
ESP32 pelnė savo šlovę tarp gamintojų ir pigių profesionalių projektų, nes jame dera „Wi-Fi“, „Bluetooth“ ir vidutinės energijos sąnaudos labai pigiame luste. Bet kaip jis veikia, kai kalbame apie dirbtinio intelekto agentus?
Aparatinės įrangos lygmeniu tipiškas ESP32 siūlo dviejų branduolių „Xtensa“ procesorių, kuris gali pasiekti apie 240 MHz, maždaug 520 KB SRAM ir keli MB „flash“ atmintiesBe to, yra variantų su išorine PSRAM, kurie žymiai padidina turimą erdvę. Tai nėra GPU, bet jos pakanka lengvam išvadų vykdymui, agento logikai ir periferinių įrenginių valdymui.
Kalbant apie degalų sąnaudas, ESP32 paprastai veikia nuo 80 ir 260 mA aktyviuoju režimu esant 3,3 V įtampai (apie 0,3–0,85 W), todėl jį galima naudoti baterijomis maitinamuose įrenginiuose, jei derinami mažos energijos sąnaudos ir pažadinimo įvykus režimai. Vietinis dirbtinio intelekto apdorojimas yra būtent tai, kas leidžia taupyti energiją. išvengti nuolatinio duomenų perdavimo į debesį.
Kaina yra dar vienas lemiamas veiksnys: daugelį ESP32 pagrindu sukurtų plokščių galima rasti už mažiau nei 10 eurų ir net labai kompaktiško formato. Tai leidžia jas diegti perspektyviai. dešimtys ar šimtai išmaniųjų mazgų lauke neišleidžiant biudžeto – tai esminis dalykas pradedantiesiems verslininkams ir spontaniškai investuotiems projektams.
Tačiau turime būti realistai: su ribota RAM ir nėra galingų dirbtinio intelekto greitintuvųModeliai, veikiantys pačioje mikroschemoje, turi būti labai kompaktiški, paprastai kvantuoti iki 8 bitų, su nedideliu sluoksnių ir nedideliu parametrų skaičiumi. Tai veda prie tokių sistemų, kurios buvo sukurtos siekiant maksimaliai išnaudoti šiuos išteklius.
ESP-Claw: Vietiniai dirbtinio intelekto agentai ESP32, sukurti kraštinėms technologijoms
„ESP-Claw“ yra „Espressif Systems“ sukurta sistema, kurioje pateikiama aiški idėja: leisti ESP32 išmaniuosius agentus valdo visiškai lokaliaibe nuolatinės priklausomybės nuo išorinės serverio sistemos. Tikslas nėra sukurti miniatiūrinį „ChatGPT“, o agentus, orientuotus į konkrečias daiktų interneto užduotis.
ESP-Claw dizainas pagrįstas a modulinė architektūra Jame yra lengvas išvadų variklis, agentų valdymo sistema ir sąsaja jutikliams bei pavaroms integruoti. Įrenginys ne tik nuskaito duomenis, bet ir juos interpretuoja bei priima sprendimus dėl veiksmų: tai labai skiriasi nuo tiesiog visko siuntimo į debesį.
ESP-Claw agentą galima suprasti kaip subjektą, kuris Jis gauna įvestis ir apdoroja jas kompaktišku modeliu. ir generuoja išvestį (aktyvuoja relę, siunčia pranešimą, koreguoja nustatytąją vertę ir pan.). Tikroji galia atsiranda, kai sujungiami keli duomenų šaltiniai: buvimas, temperatūra, drėgmė, aplinkos triukšmas... ir apibrėžiamos vietinės sprendimų politikos.
Dėl atminties apribojimų ESP-Claw naudoja suspausti modeliai ir optimizavimo metodai pavyzdžiui, 8 bitų kvantizavimas, parametrų mažinimas ir laipsniškas vykdymas. Pradinėje dokumentacijoje minimi modeliai, mažesni nei 1 MB, gerai suderinti su daugelio ESP32 plokščių turima atmintimi.
Poveikis delsai yra reikšmingas: nors skambutis į debesį paprastai trunka nuo 100 ir 500 ms Priklausomai nuo ryšio, atliekant paprastas užduotis, vietinės išvados gali sumažėti iki mažiau nei 10 ms. Pramoninės automatikos, namų automatikos ar bet kokios kitos realaus laiko valdymo programos atveju šis skirtumas visiškai pakeičia patirtį.
„PycoClaw“: „OpenClaw“ agento architektūra perkelta į „MicroPython“
Nors ESP-Claw daugiausia dėmesio skiria lengviems modeliams ir C/C++ logikai, „PycoClaw“ taiko kitokį požiūrį: „OpenClaw“ agento architektūros perkėlimas į ESP32 naudojant „MicroPython“. Tikslas – sukurti 5 USD kainuojantį mikrovaldiklį, kuris galėtų paleisti gamybinius agentus su modernia serverio tipo atmintimi, įrankiais ir orkestravimu.
„OpenClaw“ iš pradžių yra atvirojo kodo sistema, skirta kurti patikimi, audituojami ir kontroliuojami dirbtinio intelekto agentaiUžuot tiesiog apvyniojęs LLM, jis apibrėžia „stebulės ir stipinų“ architektūrą su keliais elementais: centriniu pranešimų maršrutizavimo šliuzu, agentų vykdymo aplinkomis, kelių agentų maršrutizavimo sistema ir gerai struktūrizuotu vykdymo srautu.
„OpenClaw“ branduolys apima 6 pakopų vamzdynasDuomenų įkėlimas, maršrutizavimas, konteksto surinkimas, modelio iškvietimas, įrankių vykdymas ir atsakymų pateikimas. Kiekvienas agentas palaiko savo izoliuotą darbo sritį su paprasto teksto failais (AGENTS.md, SOUL.md, USER.md), kuriuose apibrėžiami asmeniniai duomenys, taisyklės ir kontekstas, leidžiant keliems specializuotiems agentams egzistuoti toje pačioje sistemoje.
„PycoClaw“ pritaiko šias koncepcijas „MicroPython“ programinei įrangai ESP32 klaviatūroje. Projekte yra įtrauktas IDE pasiekiama iš naršyklės Tai supaprastina programinės įrangos mirksėjimą ir aplinkos valdymą, todėl įkūrėjas gali prijungti plokštę, paspausti mygtuką ir diegti agentą nesivargindamas su sudėtingomis įrankių grandinėmis.
Vienas iš pagrindinių „PycoClaw“ aspektų yra tas, kad Agentas turi prieigą prie GPIO, I2C, SPI ir PWM.Tai reiškia, kad tas pats subjektas, kuris bendrauja, priima sprendimus arba teikia užklausas API, gali tiesiogiai įjungti variklius, skaityti jutiklius, atnaujinti ekranus arba aktyvuoti reles be tarpinio tilto.
Be to, „PycoClaw“ atkartoja „OpenClaw“ kelių kanalų pokalbis mikrovaldiklyje naudojant „Bluetooth“, „Wi-Fi“, nuoseklųjį ryšį arba MQTT. Vienas ESP32 gali gauti instrukcijas iš mobiliosios programėlės, žiniatinklio skydelio arba pramoninio brokerio, nereikalaujant perrašyti integracijų kiekvienam kanalui.
Atmintis, atkaklumas ir „ScriptoHub“: „PycoClaw“ ekosistema
Pagrindinis skirtumas, palyginti su grynomis ML bibliotekomis, yra tas, kad „PycoClaw“ tvarko būseną pažangiu būdu. Agento atmintis (sesijos, užrašai, konfigūracija, asmenybė) Jis saugomas ESP32 atmintyje naudojant failų sistemas, tokias kaip SPIFFS arba LittleFS, kad kontekstas išliktų po perkrovimo ir elektros energijos tiekimo nutraukimo.
Ši detalė yra labai svarbi tiek vartojimo prekėse (namų asistentas, kuris „jus pažįsta“ ir kasdien savęs neatkuria), tiek pramonėje, kur konteksto tęstinumas O sprendimų atsekamumas yra reikalavimas, o ne prabanga.
Siekdama paspartinti kūrimą, „PycoClaw“ remiasi „ScriptoHub“ – bendruomenės prekyvietė agentų scenarijamsTen galite rasti iš anksto sukurtų sprendimų: namų automatizavimo, lengvosios robotikos, lauko asistentų, stebėjimo ir kt. Komanda gali importuoti įgūdžius, juos pritaikyti ir dalytis savo indėliu.
Palyginti su kitais įterptųjų dirbtinio intelekto metodais, „PycoClaw“ užima unikalią nišą. Šioje srityje išsiskiria tokie sprendimai kaip „TensorFlow Lite Micro“ ar „Edge Impulse“. klasifikacija jutikliuose (vibracija, gestai, pagrindinis garsas), tačiau jie nesiūlo agentų ciklų su atmintimi ir įrankiais. Tokie pasiūlymai kaip AWS IoT Greengrass suteikia daug galios hibridinėms architektūroms, nors ir kaina išlaidos vienam įrenginiui ir didelė priklausomybė nuo debesijos.
Startuoliams, ieškantiems agentų rinkinio su nebrangia įranga, „PycoClaw“ suteikia galimybę minimalus delsos laikas, tiesioginis aparatinės įrangos valdymas ir modifikuojamas elgesys redaguoti paprastus tekstinius failus, o ne nuolat atnaujinti programinę-aparatinę įrangą.
Balso asistentai ESP32 sistemoje: „LangChain“, MCP ir hibridinės architektūros
Be bendrinių sistemų, yra labai veiksminga darbo kryptis: naudojant ESP32 kaip balso sąsajaNors samprotavimai ir generavimas vyksta serveriuose su LLM ir garso paslaugomis, keli realaus pasaulio projektai įrodo, kad tai ne tik įmanoma, bet ir atrodo labai sklandu.
Tipiškas pavyzdys yra realaus laiko balso asistento nustatymas, kai ESP32 tvarko užfiksuoti garsą, valdyti mygtukus ir leisti garsąPlokštė siunčia balso duomenis per „WebSockets“ į „Node.js“ serverį (dažnai naudodama „TypeScript“), kuris integruoja „LangChain“ ir „OpenAI“ modelius: pirmiausia „Whisper“ transkripcijai, tada LLM (GPT arba panašus) arba atviri modeliai suprasti ir sugalvoti atsakymą.
Tekstinis atsakymas perduodamas kalbos sintezės paslaugai, o garsas yra Grįžta prie transliacijos per ESP32Garsas atkuriamas per mažą garsiakalbį. Sistema veikia kaip „išmanioji racija“, kuri visada yra paruošta, neužgrobdama vartotojo kompiuterio ar mobiliojo telefono.
Techniniu lygmeniu vienas didžiausių iššūkių yra efektyvus buferių valdymas Tiek ESP32, tiek serveryje labai svarbu palaikyti mažą delsą ir išvengti garso nutrūkimų. Tinkamas buferio dydžių, diskretizavimo dažnių ir fragmentavimo strategijos sureguliavimas lemia, ar pokalbis bus sklandus, ar tikras spragsėjimų ir vėlavimų košmaras.
Architektūriniu požiūriu svarbūs tampa MCP (Modelio konteksto protokolas) arba panašūs metodai, apibrėžiantys standartinė agentų ir fizinio pasaulio galimybių sutartisDėl MCP asistentas gali deklaratyviai iškviesti „įrankius“: nuskaityti jutiklius, perkelti pavarą, pateikti užklausą verslo API arba valdyti šviestuvą be specialaus kodo kiekvienam modeliui.
Su ESP32-S3, kuris turi integruotą USB, patobulintą vektorinį skaičiavimą ir gerą I2S garso palaikymą su MEMS mikrofonais, galite kurti įrenginius, kurie... Jie paleidžia raktinių žodžių detektorių lokaliai.Jie atlieka lengvąjį išankstinį apdorojimą (VAD, bazinį normalizavimą) ir deleguoja sunkiąsias dalis serverio sistemai: visišką transkripciją, LLM samprotavimą ir kalbos sintezę.
Tikri projektai: kibernetiniai augintiniai, Wheatley ir „pasidaryk pats“ asistentai su asmenybe
Teorija gera, bet kur iš tikrųjų matote potencialą Dirbtinio intelekto agentai ESP32 platformoje Tai jau vykdomi konkretūs projektai. Vienas ypač ryškus pavyzdys – stalinis kiberpanko „kačiukas“, maitinamas ESP32-S3 ir 410x502 pikselių HD ekranu.
Šis įrenginys veikia kaip virtualus augintinis su balsu ir animacijomisMikrovaldiklis koordinuoja kelis dirbtinio intelekto modulius per centrinį agentą (agent mcp), kuris koordinuoja lūpų sinchronizavimą, atsakymus ir reakcijas. Algoritmas iš garso skaido fonemas, kad sinchronizuotų katės burną su balsu, o burnos formos optimizuotos, kad judesiai būtų natūralesni.
Subjektyvi patirtis atskleidžia: kūrėjas pastebi, kad jis palieka kačiuką šalia, kol žaidžia stalo žaidimus vienas, ir Jausmas toks, lyg būčiau su tikra kompanija.Tai ne šiaip paprastas pokalbių robotas. Visa gudrybė – sujungti realaus laiko animaciją, balsą ir agentą, kuris sujungia visus dirbtinio intelekto modulius į vieną „personažą“.
Kitas įdomus pavyzdys – nešiojama Wheatley, personažo iš „Portal 2“, versija, įdiegta... „SenseCap Watcher“ su ESP32 branduoliu ir 8 MB PSRAMŠiuo atveju programinė įranga buvo sukurta naudojant ESP-IDF ir naudoja „WebRTC“, kad perduotų mikrofono garsą į galinę sistemą.
Grandinė yra tokia: ESP32 siunčia garsą per WebRTC, serveris naudoja Šnabždesys transkribavimuiGPT-4o naudojamas atsakymo tekstui generuoti, o „ElevenLabs“ – kalbai sintezuoti. Grįžtamasis garso srautas taip pat keliauja per „WebRTC“, todėl gaunamas kalbantis Wheatley garsas, kuris Reaguokite realiuoju laiku iš bet kurios vietos, naudodamiesi ryšiu.
Galiausiai, „pasidaryk pats“ asistentai su ESP32 kaip įvesties / išvesties sąsaja ir „Node.js“ + „LangChain“ + „OpenAI“ posisteme užbaigia ratą: mygtukas kalbėjimui, Garso transliacija realiuoju laiku į serverįDirbtinis intelektas supranta, pateikia argumentus ir atsako, o tada atsakymas siunčiamas atgal į mikrovaldiklį. Visa tai buvo paskelbta viešose saugyklose su nuosekliais vadovais, kaip atkartoti sąranką.
Naudojimo atvejai: nuo išmaniųjų namų ir mažmeninės prekybos iki lengvosios pramonės ir švietimo
Kai tik pripažįstame, kad ESP32 gali talpinti dirbtinio intelekto agentus (lokalius arba hibridinius), programų skaičius didėja. Namuose tokios sistemos kaip ESP-Claw ar PycoClaw leidžia mums kurti išmanesnės namų automatizavimo sistemos kurios mokosi naudojimo modelių: apšvietimas, kuris prisitaiko prie buvimo ir paros laiko, klimato kontrolė, kuri reguliuoja temperatūrą pagal istorinį elgesį, arba maži darbalaukio asistentai, kurie sujungia jutiklius ir balsą.
Žemės ūkyje ir kaimo vietovių daiktų internete, kur ryšys ribotas ir brangus, ESP32 agentai gali nuspręsti dėl laistymo, vėdinimo ar šiltnamių atidarymo Naudojant vietinius duomenis ir dirbtinio intelekto sugeneruotas taisykles, santraukos arba įspėjimai siunčiami į serverį tik tada, kai tai absoliučiai būtina. Duomenų taupymas ir veikimo patikimumas yra milžiniški.
Lengvosios pramonės aplinkoje šie išmanieji mikrovaldikliai yra įpratę stebėsena ir nuspėjamoji priežiūraLengvas ESP32 pagrindu sukurtas mazgas gali aptikti vibracijos ar temperatūros anomalijas, pažymėti įtartinus įvykius ir sukelti signalizaciją prieš įvykstant rimtam gedimui, taip užtikrindamas gamyklos veikimą.
Kita labai perspektyvi sritis yra švietimas ir „pasidaryk pats“ robotika. Su ESP32 ir „PycoClaw“ galite kurti edukacinė robotika su adaptyviu elgesiuRobotai, kurie ne tik seka linijas, bet ir mokosi iš sąveikos, saugo atmintį ir supranta paprastas balso komandas. Visa tai su įranga, kurią gali sau leisti bet kuri švietimo įstaiga.
Ir, žinoma, klientų aptarnavimas ir mažmeninė prekyba: pardavimo vietos asistentai, kurie Jie veikia net ir be nuolatinio ryšio.Interaktyvūs kioskai su balso valdymu, pritaikymo neįgaliesiems sistemos klasėse ar muziejuose... Visais šiais atvejais vietinė jautrių duomenų kontrolė ir sumažintas delsos laikas pagerina tiek naudotojo patirtį, tiek atitiktį reglamentams.
Dirbtinio intelekto agentų apribojimai ir iššūkiai ESP32
Tai ne visi privalumai. Pagrindinis šių metodų apribojimas yra skaičiavimo galia ir atmintis ESP32. Net ir naudojant PSRAM bei optimizavimus, didelių kalbos modelių neįmanoma paleisti lokaliai; sudėtingam samprotavimui būtina deleguoti išorinei API, o tai lemia ryšio ir naudojimo sąnaudas.
Modeliams skirta erdvė paprastai yra apie mažiau nei megabaitas Daugeliu atvejų tinklo projektavimas ir optimizavimas tampa menu: agresyvus kvantavimas, parametrų mažinimas, sluoksnių genėjimas ir laipsniško vykdymo metodai, siekiant išvengti RAM perpildymo.
Dar vienas rimtas iššūkis yra agentų ir modelių atnaujinimas juos įdiegusNors tokios sistemos kaip „PycoClaw“ leidžia lengvai redaguoti konfigūracijas ir „asmenybes“ paprastame tekste, modelio pakeitimas šimtuose mazgų lauke gali būti sudėtingas, ypač kai ryšys yra retas.
Kritinėse aplinkose, Saugumas įgauna milžinišką reikšmę.Saugus paleidimas, „flash“ šifravimas, programinės įrangos pasirašymas, abipusis autentifikavimas, vaidmenimis pagrįstas autorizavimas ir komandų auditas yra būtini, jei agentai turi prieigą prie įrangos, jautrių duomenų ar verslo procesų. Dinaminis kodo vykdymas ir nuotolinių įrankių naudojimas turi būti ribojami griežtomis politikomis ir testavimu.
Galiausiai, kai kurių iš šių projektų (ypač „PycoClaw“ ir jos prekyvietės) ekosistema vis dar yra nestabili. ankstyvoji brandos stadijaBesivystanti dokumentacija, augančios bendruomenės ir dažni API pakeitimai yra neatsiejama pažangiausių technologijų diegimo dalis.
Net ir esant šiems apribojimams, kainos ir galios balansas yra labai patrauklus: daugeliui startuolių ir daiktų interneto projektų galimybė derinti 5–10 € aparatinė įranga su pažangiais agentais Tai daugiau nei kompensuoja apribojimus ir mokymosi kreivę.
Atsižvelgiant į visa tai, kas išdėstyta pirmiau, susidaro vaizdas, kuriame ESP32 nustoja būti „tik“ pigiu mikrovaldikliu ir tampa pagrindu. išmanieji mazgai su integruotais dirbtinio intelekto agentaisgebantis priimti sprendimus, prisiminti, bendrauti ir reaguoti į aplinką. Tarp tokių sistemų kaip ESP-Claw ir PycoClaw, MCP architektūrų, balso asistentų pavyzdžių ir kūrybinių projektų, tokių kaip „Cyberpet“ ar „Portable Wheatley“, akivaizdu, kad dirbtinis intelektas palieka debesį, kad iš tikrųjų įsitvirtintų tinklo pakraštyje.
