Deep Learning for Robot Grasping
Rossi, Toni (2024)
Rossi, Toni
2024
Teknisten tieteiden kandidaattiohjelma - Bachelor's Programme in Engineering Sciences
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-04-03
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202404023233
https://urn.fi/URN:NBN:fi:tuni-202404023233
Tiivistelmä
Robottikäden tarttuminen erilaisiin esineisiin on vaikea ongelma ratkaistavaksi. Tätä vaikeuttaa tartuttavan esineen muoto ja sen asento, tarttumiseen valittu päätetyökalu ja tiedonkeruu. Syväoppimista on hyödynnetty paljon robotin tarttumisessa, mikä tekee robotille esineiden tarttumisen oppimisen alusta loppuun mahdolliseksi. Syväoppimista hyödynnetään siten, että sillä luodaan neuroverkkoja tarttumisista kerätyn datan analysointiin. Tämän työn tarkoituksena oli tutkia aihetta kirjallisuuskatsauksena tarttumisen huippuluokkaan ja vertailla eri tarttumismalleja keskenään.
Robotin tarttumisen havaitseminen tyypillisesti saadaan aikaiseksi RGB-D-antureilla (Red Green Blue-Depth), jotka ottavat tavallisia RGB-kuvia sekä myös syvyyskuvia, jotka sitten muunnetaan pistepilvikuviksi 3D-tiloissa. Asennon arviointi tehdään hyödyntäen kuutta vapausastetta (engl. 6-DOF, Six-Degrees-of-Freedom), millä simuloidaan ihmisen kättä täydellä 3D-liikkeellä. Tutkimusten mukaan nämä kaksi seikkaa ovat perusta tarttumismalleille, jotka hyödyntävät syväoppimista. Kuitenkin 6-DOF:in tilalla saattoi olla yksi ylimääräinen vapausaste joidenkin mallien kohdalla.
Tarttumismallit ovat tietokoneohjelmistoja roboteille, mitkä hyödyntävät syväoppimista tarttumisissa. Tässä työssä tarkasteltiin kuutta eri tarttumismallia hyödyntämällä niiden kehittäjien dokumentteja kyseisistä malleista. 6-DOF GraspNet ja FFB6D (Full Flow Bidirectional fusion network for 6D) turvautuvat pistepilvikuvien analysointiin, mutta niillä on paljon muita eroavaisuuksia. ROI-GD (Region of Interest Grasp Detection) ja GR-ConvNet (Generative Residual Convolutional Neural Network) analysoivat kuvia eri moduulien kautta, jotka toimivat yhtäaikaisesti. Näiden kahden tarttumismallin välillä oli eniten samankaltaisuuksia muihin verrattuna. Dexterity-Network 4.0 kouluttaa tietynlaisia tarttumisvälineitä tarttuakseen tehokkaasti analyyttisillä malleilla ja GraspNet 1Billion on valtava dataverkko erilaisille esineille, missä on yli miljardi tarttumisasentoa erilaisille skenaarioille. Nämä kaksi tarttumismallia erosivat eniten muista tarkastelluista malleista. Tutkimuksen mukaan fyysiset kokeet eivät ole aina tarpeellisia tarttumismallien kehityksessä, koska pelkillä simulaatioillakin voi kouluttaa tarttumismalleja hyvin.
Mitä tulee robotin tarttumisen ja sen syväoppimisen kehittämiseen, tietokoneohjelmisto robottien tarttumisoperaatioihin vaatii lisää kehitystä, koska robottien kouluttaminen vie aikaa ja resursseja, ohjelmiston käytölle ei välttämättä ole taattua tukea ja ohjelmisto ei edes välttämättä toimi monille roboteille. Tämän lisäksi robotin tarttuminen vaikuttanee nyt turvautuvan paljon RGB-D-antureiden käyttöön, mutta tulevaisuudessa saattaa olla jotain tarkempaakin, kuin näiden antureiden ottamat syvyyskuvat. Robot grasping is a difficult problem to solve. What makes it difficult includes the graspable object’s type, its pose, the end-effector used in grasping, and data collection. In robot grasping, deep learning makes it possible for the robot to learn how to grasp objects in an end-to-end manner. Deep learning is utilized by making neural networks from generated grasps to analyze collected data. This paper was meant to study this topic as a literature review about its state of the art and compare different grasping models with each other.
Robot grasp detections are done typically by using RGB-D (Red Green Blue-Depth) sensors that take a regular RGB image, and a depth image that is converted to a point cloud image in a 3D space. For full 3D movement to simulate a human hand, pose estimation is done with 6-DOF (Six-Degrees-of-Freedom) grasping. Grasping models are software for robots that perform grasps by using deep learning. According to this paper’s findings, these two factors are the basis for grasping models that make use of deep learning. However, sometimes in place of 6-DOF there could have been one additional degree of freedom in some models.
Grasping models are computer programs for robots which utilize deep learning in robot grasping. In this paper, six grasping models were covered by utilizing their developers’ documents for said models. 6-DOF GraspNet and FFB6D (Full Flow Bidirectional fusion network for 6D) rely heavily on point cloud analysis, but they have many other differences. ROI-GD (Region of Interest Grasp Detection) and GR-ConvNet (Generative Residual Convolutional Neural Network) analyze images by running them through different modules that work in tandem. These two grasping models had the most similarities when they were compared to others. Dexterity-Network 4.0 trains specific sets of grippers to grasp efficiently with analytic models, and GraspNet 1Billion is a massive datanet for different objects with over one billion grasp poses for different scenarios. These two grasping models differed the most from the other models that were covered. According to this paper’s findings, physical tests are not always necessary when developing grasping models because they could also be trained well with only simulations.
When it comes to further developing robot grasping and its deep learning, the software for robots to perform grasps needs more work because it takes time and resources to teach robots, there might not be any guaranteed support for its use, and it might not even work for many robots at all. Also, robot grasping seems to rely now heavily on RGB-D sensors, however in the future, there might be something more accurate than the depth images these sensors take.
Robotin tarttumisen havaitseminen tyypillisesti saadaan aikaiseksi RGB-D-antureilla (Red Green Blue-Depth), jotka ottavat tavallisia RGB-kuvia sekä myös syvyyskuvia, jotka sitten muunnetaan pistepilvikuviksi 3D-tiloissa. Asennon arviointi tehdään hyödyntäen kuutta vapausastetta (engl. 6-DOF, Six-Degrees-of-Freedom), millä simuloidaan ihmisen kättä täydellä 3D-liikkeellä. Tutkimusten mukaan nämä kaksi seikkaa ovat perusta tarttumismalleille, jotka hyödyntävät syväoppimista. Kuitenkin 6-DOF:in tilalla saattoi olla yksi ylimääräinen vapausaste joidenkin mallien kohdalla.
Tarttumismallit ovat tietokoneohjelmistoja roboteille, mitkä hyödyntävät syväoppimista tarttumisissa. Tässä työssä tarkasteltiin kuutta eri tarttumismallia hyödyntämällä niiden kehittäjien dokumentteja kyseisistä malleista. 6-DOF GraspNet ja FFB6D (Full Flow Bidirectional fusion network for 6D) turvautuvat pistepilvikuvien analysointiin, mutta niillä on paljon muita eroavaisuuksia. ROI-GD (Region of Interest Grasp Detection) ja GR-ConvNet (Generative Residual Convolutional Neural Network) analysoivat kuvia eri moduulien kautta, jotka toimivat yhtäaikaisesti. Näiden kahden tarttumismallin välillä oli eniten samankaltaisuuksia muihin verrattuna. Dexterity-Network 4.0 kouluttaa tietynlaisia tarttumisvälineitä tarttuakseen tehokkaasti analyyttisillä malleilla ja GraspNet 1Billion on valtava dataverkko erilaisille esineille, missä on yli miljardi tarttumisasentoa erilaisille skenaarioille. Nämä kaksi tarttumismallia erosivat eniten muista tarkastelluista malleista. Tutkimuksen mukaan fyysiset kokeet eivät ole aina tarpeellisia tarttumismallien kehityksessä, koska pelkillä simulaatioillakin voi kouluttaa tarttumismalleja hyvin.
Mitä tulee robotin tarttumisen ja sen syväoppimisen kehittämiseen, tietokoneohjelmisto robottien tarttumisoperaatioihin vaatii lisää kehitystä, koska robottien kouluttaminen vie aikaa ja resursseja, ohjelmiston käytölle ei välttämättä ole taattua tukea ja ohjelmisto ei edes välttämättä toimi monille roboteille. Tämän lisäksi robotin tarttuminen vaikuttanee nyt turvautuvan paljon RGB-D-antureiden käyttöön, mutta tulevaisuudessa saattaa olla jotain tarkempaakin, kuin näiden antureiden ottamat syvyyskuvat.
Robot grasp detections are done typically by using RGB-D (Red Green Blue-Depth) sensors that take a regular RGB image, and a depth image that is converted to a point cloud image in a 3D space. For full 3D movement to simulate a human hand, pose estimation is done with 6-DOF (Six-Degrees-of-Freedom) grasping. Grasping models are software for robots that perform grasps by using deep learning. According to this paper’s findings, these two factors are the basis for grasping models that make use of deep learning. However, sometimes in place of 6-DOF there could have been one additional degree of freedom in some models.
Grasping models are computer programs for robots which utilize deep learning in robot grasping. In this paper, six grasping models were covered by utilizing their developers’ documents for said models. 6-DOF GraspNet and FFB6D (Full Flow Bidirectional fusion network for 6D) rely heavily on point cloud analysis, but they have many other differences. ROI-GD (Region of Interest Grasp Detection) and GR-ConvNet (Generative Residual Convolutional Neural Network) analyze images by running them through different modules that work in tandem. These two grasping models had the most similarities when they were compared to others. Dexterity-Network 4.0 trains specific sets of grippers to grasp efficiently with analytic models, and GraspNet 1Billion is a massive datanet for different objects with over one billion grasp poses for different scenarios. These two grasping models differed the most from the other models that were covered. According to this paper’s findings, physical tests are not always necessary when developing grasping models because they could also be trained well with only simulations.
When it comes to further developing robot grasping and its deep learning, the software for robots to perform grasps needs more work because it takes time and resources to teach robots, there might not be any guaranteed support for its use, and it might not even work for many robots at all. Also, robot grasping seems to rely now heavily on RGB-D sensors, however in the future, there might be something more accurate than the depth images these sensors take.
Kokoelmat
- Kandidaatintutkielmat [8997]