Les capteurs d’image à semi-conducteurs : une imitation de l’oeil humain ?

FaKiR

Meþveret Bþk.
Les capteurs d’image à semi-conducteurs : une imitation de l’oeil humain ?

46.jpg




[h=3]Les capteurs d’image à semi-conducteurs : une imitation de l’oeil humain ?[/h] S. Utku Ay

Technologie


Un jour, un optométriste parlait à son patient aveugle de la possibilité d'un implant d'œil qui lui donnerait 16 (4 fois 4) pixels d'information visuelle. Le patient dit alors au médecin : « Parfois j'ai juste besoin d'1 pixel ; j'ai besoin de voir si la lumière est allumée ou éteinte. »

Les êtres humains utilisent la vision quotidiennement. Ils utilisent le sens de la vue plus qu'aucun des autres sens dont ils sont dotés. La compréhension moderne de la vision humaine et la découverte des principes qui la sous-tendent datent des deux derniers siècles. Les 19e et 20e siècles ont vu le développement des systèmes de prises de vue photographiques ou digitaux, qui imitent partiellement les systèmes visuels humains. Après un bref rappel historique sur la vision humaine et les systèmes de prise de vue, nous allons tenter de comparer les appareils-photos actuels les plus avancés avec le système de vision humaine, en se concentrant essentiellement sur les capteurs d'image à semi-conducteurs et l'élément de prise d'images du système visuel humain, l'œil.

Rappel historique sur la vision humaine

La vision humaine a été le sujet d'interprétations contradictoires depuis les temps anciens. De nombreux médecins et philosophes croyaient en la théorie de l'extra-mission, ou de l'œil actif. Selon cette théorie, l'œil perçoit les objets en émettant de la lumière et en saisissant les objets dans ses rayons. C'est dans la culture médiévale islamique que la recherche sur la vision humaine et l'optique s'est développée pour donner un système similaire à la théorie moderne de la vision. Entre autres, Ibn al-Haytham (Alhazen) (965-1040 A.D.), médecin, astronome et mathématicien musulman du 10e siècle a joué un rôle dans ce domaine en promouvant la théorie de l'intromission qui établit que la vision ne se produit que parce que les rayons lumineux entrent dans l'œil. Ibn al-Haytham a fondé l'optique physiologique, qui distinguait le fonctionnement de l'œil du comportement de la lumière. Par contre, dix siècles après Ibn al-Haytham, Winer et al. (2002) ont récemment prouvé que 50 % des étudiants américains en université croient en la théorie de l'extra-mission1.

Bien que les caractéristiques fondamentales, l'anatomie et la physiologie de l'œil aient été documentées par Galien (129-200 A.D.), médecin grec de 2e siècle A.D., c'est Kepler, lecteur attentif de Ibn al-Haytham, qui offrit la première théorie de l'image rétinienne et du fonctionnement correct de l'œil en 1604. Il proclamait : « La vision se forme grâce à une image des choses visibles sur la surface blanche et concave de la rétine. » Après Kepler, les progrès furent lents, car on sut peu de choses sur le système nerveux jusqu'au 19e siècle, et ce n'est que récemment que les scientifiques ont acquis une connaissance meilleure sur la façon dont le cerveau appréhende l'image rétinienne. Mais beaucoup de questions nous échappent encore.

Rappel historique sur les systèmes de prise de vue

Tout en satisfaisant leur curiosité à propos de la vision humaine, les êtres humains ont aussi essayé d'imiter la vision humaine en prenant des images d'objets grâce à des instruments. Vers l'an mille, Ibn al-Haytham, connu comme le père de l'optique moderne, inventa l'appareil-photo à trou d'épingle2 et expliqua pourquoi l'image était inversée. C'est Johannes Kepler qui suggéra, dans les années 1600, d'utiliser en plus une lentille pour améliorer la technique du trou d'épingle. Au début des années 1800, on réussit pour la première fois à prendre une image sur une plaque photographique. Par la suite, les appareils photographiques commencèrent à être commercialisés en masse au 20e siècle. Les équipements photographiques auxquels nous sommes tous habitués, comme les caméras 35 mm, l'ampoule de flash, l'appareil Polaroid et les appareils autofocus compacts, furent tous développés au 20e siècle. L'invention de l'appareil-photo tel que nous le connaissons aujourd'hui a ouvert la voie à d'autres technologies, y compris à la capture de l'image en mouvement, et plus tard l'appareil digital, où sont utilisés des dispositifs électroniques de capture d'image. En 1972, le traitement chimique d'une image sur du papier photographique cessa d'être le seul aboutissement pour une image, car le premier appareil électronique sans film fut breveté par Texas Instrument Corporation. Les appareils électroniques sans film ont vu le jour grâce à l'invention des procédés de capture d'images à circuits intégrés, appelés dispositif à transfert de charge (CCD – charge coupled devices) et des capteurs d'image à semi-conducteurs à oxyde métallique (MOS – metal-oxide-semiconductor), vers la fin des années 60. Depuis l'invention des imageurs à circuits intégrés, la préférence et l'attirance des gens pour la vision sont devenues encore plus fortes qu'auparavant.

Une comparaison des capteurs d'images pour appareils-photos et de l'œil humain

Au cours des vingt-cinq dernières années, les progrès dans la conception et la fabrication des capteurs d'image à semi-conducteurs ont rendu l'imagerie digitale plus abordable et accessible au grand public. Ces avancées sont devenues plus visibles pour le consommateur sur des produits mobiles, en particulier les téléphones cellulaires, qui disposent de fonctions de prise d'images fixes ou vidéo. Bien que les appareils-photos numériques soient facilement accessibles aujourd'hui, les capteurs d'image à la pointe de la technologie qui sont utilisées dans ces appareils affichent un écart de performance par rapport aux possibilités de l'œil humain. Dans quelle mesure ces capteurs d'image sont aujourd'hui efficaces quand on les compare à notre œil, c'est une question dont nous débattrons.

On peut comparer les capacités de l'œil humain avec des capteurs d'image à la pointe du progrès utilisées dans les téléphones cellulaires ou dans des PC et des appareils-photos courants. On peut aussi comparer les capacités du système visuel humain, englobant les yeux, le nerf optique, le cortex visuel, etc., avec un système de caméra qui comprend l'optique, les capteurs d'image et de traitement du signal, et d'autres mécanismes. Les capacités incluent l'aptitude à voir les différentes couleurs (réponse spectrale), les caractéristiques (taille, densité, distribution) des éléments d'image (pixels), la sensibilité à la lumière, la zone de détection de l'intensité lumineuse, les modes de fonctionnalité et d'opération, et les capacités de traitement du signal.

Une réponse spectrale

Un élément unique sensible à la lumière, dans un capteur d'image à semi-conducteurs, est un pixel. Dans l'œil humain, on l'appelle un photorécepteur. Ces deux éléments convertissent la lumière incidente, ou les photons, en signaux électriques. L'œil humain voit le spectre qu'on appelle visible, entre 380 nm (bleu) à 750 nm (rouge) et utilise deux sortes de photorécepteurs sur la rétine : les cônes et les bâtonnets. Les cônes sont utilisés pour la vision de la couleur et de la lumière du jour. Les bâtonnets sont responsables de la vision nocturne. Il existe trois types de photorécepteurs coniques sur la rétine, qui contiennent des types de pigments photosensibles différents. Les trois types de cônes sont appelés L, M et S dont les pigments réagissent le mieux aux longueurs d'onde de lumière respectivement longues ou rouges (pointe à 564 nm), moyennes ou vertes (pointe à 534 nm) et courtes ou bleues (pointe à 420 nm). Les bâtonnets (R) sont très sensibles à une longueur d'ondes d'environ 498 nm (vert), comme on le voit sur la figure 13. Les pixels des capteurs d'image dans les appareils numériques imitent les photorécepteurs de l'œil humain pour la vision des couleurs. Ils utilisent trois sortes de filtres à couleur (rouge, vert et bleu) au sommet de chaque pixel pour convertir les rayons lumineux en signaux électriques dans différents spectres visibles. Contrairement aux cônes de l'œil humain, les pixels et les filtres à couleur des appareils-photos peuvent être conçus pour couvrir de larges spectres, invisibles à l'œil humain, par exemple les spectres de rayons X, ultraviolet et infrarouge. En ce qui concerne la zone de réponse spectrale, les pixels des appareils-photo montrent une flexibilité plus grande que celle des photorécepteurs de l'œil humain. Par ailleurs, il est intéressant de remarquer que la vision humaine a des caractéristiques spectrales identiques à celles du soleil. L'émission lumineuse du soleil culmine dans le spectre visible, comme le montre la figure 24.

La taille et le nombre de pixels

La taille de pixels dans les appareils numériques actuels se rapproche de la taille des photorécepteurs de l'œil humain. L'œil humain moyen contient 130 millions de photorécepteurs. Le diamètre des cônes et des bâtonnets varie entre 1 et 8 microns, selon leur emplacement sur la rétine5. Actuellement, les capteurs d'image à la pointe de la technologie contiennent de 10 à 30 millions de pixels. Chaque pixel peut ne pas dépasser 1,4 mm de diamètre. À ce jour, il n'y a pas eu de capteur d'image qui utilise des pixels de 1,4 mm et qui fasse plus de 8 millions de pixels. Pourtant, l'œil humain a été équipé de photorécepteurs d'1 mm et contient plus de 100 millions de photorécepteurs, et cela depuis le début de l'humanité. On estime aussi que la résolution de l'œil humain équivaut à une puce de capteur d'image de 576 millions de pixels avec un champ de vision de 120 degrés6. Nous avons donc un long chemin à faire pour améliorer la taille et le nombre de pixels des capteurs d'image utilisés dans les appareils-photos, si nous voulons égaler l'œil humain.

La distribution et la formation des pixels

Dans l'œil humain, la taille et les densités de photorécepteurs varient selon leur localisation sur la rétine. Par exemple, il n'existe aucun bâtonnet dans la zone centrale de l'œil, la fovéa. Les photorécepteurs de la vision des couleurs, qui ne représentent que 10 % des photorécepteurs, sont concentrés dans la fovéa. La distribution des photorécepteurs est irrégulière, et unique pour chaque être humain, comme l'empreinte digitale. Nous voyons pourtant tous les choses de la même façon, comme les couleurs (sauf les daltoniens). Dans les puces des appareils-photos, par contre, les pixels sont disposés régulièrement, en deux dimensions. Comme les techniques et les algorithmes de traitement de l'image utilisés dans les systèmes de caméra sont linéaires et n'imitent pas strictement le traitement du signal existant dans le système de vision humain, on a besoin que les pixels soient disposés régulièrement.

La sensibilité à la lumière et la zone de détection

Bien que la taille des pixels des capteurs d'image approche celle des photorécepteurs de l'œil humain, les systèmes de caméra ne sont pas encore près d'égaler ses performances en termes de sensibilité à la lumière et de zone de détection. Le système de vision humain et les photorécepteurs peuvent aisément s'adapter à des lumières très réduites comme éclatante, avec une zone de réponse à l'intensité lumineuse de 1 à 10 milliards (1 : 1010)7. Cette zone de détection va des conditions de luminosité d'un jour de plein soleil à une vision par nuit noire. Un pixel d'appareil ordinaire grand public à une zone de détection de l'intensité lumineuse de un à mille (1 : 103)8. Dans un système de prise de vue, les détails d'une scène prise sont soit cachés dans les zones sombres soit effacés par la lumière vive, selon les réglages d'exposition de l'appareil. Ainsi, on peut dire que le système de vision humain travaille dix millions (107) de fois plus efficacement que les appareils grand public pour ce qui est de la transformation d'une scène en image.

Le principe opératoire

En ce qui concerne les principes opératoires, les photorécepteurs de l'œil humain convertissent les rayons lumineux en signaux électriques par des réactions chimio-électriques extrêmement rapides qui peuvent détecter un simple photon. Typiquement, dans le pixel capteur d'image d'un appareil numérique, l'effet photoélectrique est utilisé pour convertir les photons qui arrivent en charges électriques. Les charges électriques sont recueillies et stockées dans chaque pixel pendant la période d'exposition. Puis elles sont amplifiées et converties en 1 et 0 pendant l'affichage avant que l'image soit envoyée à des outils de traitement plus sophistiqués : ordinateur personnel, appareil numérique fixe ou vidéo. Il est possible de développer un appareil-photo repérant individuellement chaque photon. Cependant, des pixels très particuliers et de plus grande taille, et des dispositifs supplémentaires, seraient nécessaires pour fabriquer un tel appareil de prise de vue. On peut donc dire qu'il est presqu'impossible, avec la technologie actuelle la plus pointue, de construire des pixels ayant les capacités et les dimensions des photorécepteurs de l'œil humain.

La capacité de traitement du signal

L'image captée par l'œil humain est prétraitée avant d'être envoyée vers le cortex visuel du cerveau. Ce prétraitement consiste en une opération de réduction des données dans laquelle rien ne se perd, avec un taux de compression de 130 à 1, car 1 million de nerfs optiques quittant chaque œil doit transporter les informations de 130 millions de récepteurs. Cette compression permet au cerveau de traiter les informations à un taux de 25 à 150 scènes ou tableaux à la seconde. Chaque pixel de capteur d'image est d'abord transféré à des unités de traitement plus élaborées. On peut ou non, utiliser une méthode de compression des données avec comme conséquence une certaine perte de détails dans l'image. Le transfert des images dans les capteurs de l'appareil se fait généralement en séquence, ce qui réduit la vitesse des opérations de prise de vue ou le débit des images. On utilise des techniques différentes pour maintenir une cadence de prise de vues d'au plus 25 images à la seconde dans les capteurs des appareils. Avec la technologie actuelle, des capteurs d'image qui ont un taux de capture d'un million d'images à la seconde ont été proposés, et peuvent être fabriqués pour des applications scientifiques. Les insuffisances de la prise de vue actuelle inhérentes aux capteurs d'image sont cachées par les limitations de l'œil humain. Par exemple, des capteurs d'image à semi-conducteurs ont toujours été produits avec de mystérieuses bandes en lignes et en colonnes, que l'œil humain détecte. Cependant, des expériences psycho-visuelles ont montré que l'œil humain ne peut détecter les contrastes entre deux lignes grises adjacentes quand la différence est supérieure à 0,5 %. Ainsi, si un capteur d'appareil-photo est conçu pour avoir un contraste de ligne à ligne, ou de colonne à colonne, inférieur à 0,5 %, ces bandes étranges ne sont pas visibles.

Conclusion

La vue est certainement considérée comme la première source d'informations. Il est évident que le système visuel est extrêmement complexe, et que cette complexité a fasciné les êtres humains à travers l'histoire. Pourtant, les principes et les fonctions de base de la vue, et l'œil, n'ont été découverts qu'au cours des deux derniers siècles. Ces découvertes ont conduit à rechercher comment imiter ces fonctions, ce qui a produit les matériels de photographie mobile et fixe, et les capteurs d'image utilisés dans les appareils numériques actuels. Même si les êtres humains en sont encore aux tous premiers pas dans l'imitation parfaite de l'œil humain, la curiosité et l'investigation scientifique nous permettent de découvrir les fonctions et les dispositifs de l'œil qui augmenteront nos connaissances et nous aideront à élaborer des pixels et des puces pour capteurs d'image meilleurs.

Notes
1 Winer, G. A., Cottrell, J. E., Gregg, V.,
Fournier, J. S., & Bica, L. A., « Fundamentally misunderstanding visual perception: Adults beliefs in visual emissions », American Psychologist, 57, 417-424, 2002.
2 Ertan Salik, « Pinhole Cameras, Imaging, and The Eye », The Fountain Magazine, n° 54, p. 30-33, avril-juin 2006.
3 URL: File:Cone-response.png - Wikipedia, the free encyclopedia.
4 URL: handprint : colormaking attributes.
5 Stefan Winkler, Digital Video Quality–Vision Models and Metrics, John-Wiley & Sons, Ltd., 2005.
6 URL: Clarkvision Photography - Resolution of the Human Eye.
7 R.C. Gonzalez and R.E. Woods, Digital Image Processing, Addison-Wesley, 1993.
8 M. Schanz, et al., « A high-dynamic-range CMOS image sensor for automotive applications », IEEE Journal of Solid-State Circuits, vol. 35, n° 7, p. 932-938, juillet 2000.
 
Üst