KWALIFIKACJA INF10 - CZERWIEC 2019

PYTANIE NR 19.
Program ImageReader przetwarzając plik graficzny do postaci edytowalnej, bazuje na technologii
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
OCR (optyczne rozpoznawanie znaków) służy do przekształcania obrazu zawierającego tekst (np. skanu) w tekst edytowalny. Dlatego program, który "przetwarza plik graficzny do postaci edytowalnej", bazuje na OCR, a nie na czytniku ekranu ani na syntezie mowy.

Pełne wyjaśnienie:

Technologia OCR (optyczne rozpoznawanie znaków) polega na analizie obrazu, wykrywaniu kształtów liter oraz zamianie ich na znaki tekstowe, które można edytować w edytorze (kopiować, poprawiać, formatować). To właśnie opisuje sformułowanie: "przetwarzając plik graficzny do postaci edytowalnej". Plik graficzny (skan, zdjęcie) sam w sobie nie ma warstwy tekstowej, więc aby uzyskać tekst edytowalny, potrzebne jest rozpoznanie znaków.

Odpowiedź "OCR" jest więc poprawna, bo wskazuje technologię odpowiedzialną za konwersję obraz → tekst.

Pozostałe odpowiedzi dotyczą innych klas narzędzi wspierających dostępność, ale nie wykonują rozpoznawania znaków:

  • "Screen Reader" to czytnik ekranu. Odczytuje informacje dostępne w interfejsie systemu i aplikacji (np. etykiety, role kontrolek, tekst w polach). Nie "wydobywa" automatycznie tekstu z obrazu, jeśli aplikacja nie udostępnia go jako tekst.
  • "Text to Speech" (synteza mowy) zamienia już istniejący tekst na dźwięk. To etap "tekst → mowa", a nie "obraz → tekst". W praktyce TTS często działa razem z OCR (najpierw OCR, potem TTS), ale sama synteza mowy nie tworzy tekstu edytowalnego z grafiki.
  • "OBR" nie jest powszechnie rozpoznawalną nazwą standardowej technologii konwersji obrazu na tekst w tym kontekście. Nawet jeśli skrót bywa używany w innych znaczeniach, nie odpowiada opisowi procesu rozpoznawania znaków z obrazu w typowym ujęciu egzaminacyjnym.

Wskazówka egzaminacyjna: jeśli w treści pojawia się wymóg uzyskania tekstu edytowalnego z pliku graficznego, najczęściej chodzi o OCR. Jeśli mowa o odczytywaniu interfejsu i elementów na ekranie, wtedy chodzi o czytnik ekranu. Jeśli o zamianie tekstu na głos — o syntezę mowy.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
OCR to technologia optycznego rozpoznawania znaków, która zamienia obraz (skan, zdjęcie strony) na tekst komputerowy. Dzięki temu treść można kopiować, wyszukiwać, poprawiać błędy i formatować. W tyfloinformatyce ułatwia tworzenie dostępnych wersji materiałów drukowanych.
Najczęściej: skanowanie lub zdjęcie dokumentu → oczyszczenie obrazu (prostowanie, kontrast) → OCR (rozpoznanie znaków) → korekta błędów rozpoznania → zapis do formatu tekstowego. Im lepsza jakość obrazu, tym mniej poprawek.
Czytnik ekranu odczytuje elementy interfejsu i tekst, który aplikacja udostępnia jako tekst. Skan jest zwykle samą grafiką bez warstwy tekstowej, więc screen reader nie ma "czego czytać". OCR dopiero tworzy tekst z obrazu, który później może być czytany przez syntezę mowy.
To tekst zapisany jako znaki, a nie jako obraz. Można go zaznaczać, kopiować, wyszukiwać, poprawiać literówki, zmieniać czcionkę i strukturę dokumentu. W kontekście OCR chodzi o to, aby wynik nie był tylko obrazkiem strony, lecz materiałem możliwym do dalszego opracowania.
Synteza mowy (TTS) jest przydatna, gdy chcesz odsłuchać treść po rozpoznaniu: np. sprawdzić poprawność wyniku lub szybko zapoznać się z tekstem. Ważne: TTS działa na tekście, więc w praktyce często jest kolejnym etapem po OCR, a nie zamiennikiem OCR.
Typowe błędy to mylenie podobnych znaków (np. 0/O, 1/l), gubienie polskich znaków, błędny podział wyrazów i wierszy. Wynik zależy od jakości skanu (krzywe linie, rozmazanie), czcionki oraz tła. Dlatego po OCR zwykle potrzebna jest korekta i szybka kontrola treści.
Pomaga: zwiększenie kontrastu, usunięcie szumu, wyprostowanie strony (deskew), ustawienie właściwego języka rozpoznawania oraz rozdzielczości skanowania. Warto też unikać zdjęć pod kątem i cieni. Lepszy obraz wejściowy znacząco zmniejsza liczbę błędów w tekście wynikowym.
Nie zawsze. OCR może dobrze rozpoznać znaki, ale struktura (tabele, kolumny, nagłówki) bywa odtworzona błędnie, szczególnie w skomplikowanych układach. W praktyce często trzeba ręcznie poprawić formatowanie po rozpoznaniu albo wybrać tryb rozpoznawania układu, jeśli program go oferuje.
Szukaj słów kluczowych: jeśli jest "skan", "plik graficzny", "zdjęcie" i "tekst edytowalny" — to OCR. Jeśli jest "odczytywanie interfejsu", "nawigacja po elementach", "przyciski, pola, menu" — to czytnik ekranu. Jeśli "zamiana tekstu na głos" — to synteza mowy.
Często mylą OCR z syntezą mowy, bo oba rozwiązania "pomagają czytać". Inny błąd to utożsamienie słowa "reader" z czytnikiem ekranu, mimo że pytanie dotyczy konwersji grafiki do tekstu. Pomaga sprawdzanie, czy w treści jest warunek "edytowalny" — to mocna wskazówka na OCR.
info

Około 69% zdających odpowiada poprawnie na to pytanie. średnie

Według specjalistów z branży: "OCR (optyczne rozpoznawanie znaków) służy do przekształcania obrazu zawierającego tekst (np. skanu) w tekst edytowalny."

Źródła:

  • Wikipedia (PL), "Optyczne rozpoznawanie znaków" — https://pl.wikipedia.org/wiki/Optyczne_rozpoznawanie_znak%C3%B3w - dostęp 2026-03-05
  • ABBYY, "What is OCR (Optical Character Recognition)?" — https://www.abbyy.com/ocr/what-is-ocr/ - dostęp 2026-03-05
  • Tesseract OCR, GitHub README — opis działania i zastosowania OCR — https://github.com/tesseract-ocr/tesseract - dostęp 2026-03-05

Materiały:

  • Dokumentacja i poradniki do programów OCR używanych w edukacji i pracy biurowej
  • Materiały szkoleniowe z podstaw dostępności cyfrowej (różne technologie wsparcia)
  • Ćwiczenia praktyczne: skanowanie i rozpoznawanie tekstu z różną jakością obrazu

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego