KWALIFIKACJA INF10 - CZERWIEC 2019

Q: Jakie są typowe kroki konwersji skanu do tekstu edytowalnego?

Najczęściej: skanowanie lub zdjęcie dokumentu → oczyszczenie obrazu (prostowanie, kontrast) → OCR (rozpoznanie znaków) → korekta błędów rozpoznania → zapis do formatu tekstowego. Im lepsza jakość obrazu, tym mniej poprawek.

Q: Kiedy warto użyć syntezy mowy po wykonaniu OCR?

Synteza mowy (TTS) jest przydatna, gdy chcesz odsłuchać treść po rozpoznaniu: np. sprawdzić poprawność wyniku lub szybko zapoznać się z tekstem. Ważne: TTS działa na tekście, więc w praktyce często jest kolejnym etapem po OCR, a nie zamiennikiem OCR.

Q: Czy OCR zawsze rozpozna układ tabel i kolumn poprawnie?

Nie zawsze. OCR może dobrze rozpoznać znaki, ale struktura (tabele, kolumny, nagłówki) bywa odtworzona błędnie, szczególnie w skomplikowanych układach. W praktyce często trzeba ręcznie poprawić formatowanie po rozpoznaniu albo wybrać tryb rozpoznawania układu, jeśli program go oferuje.

PYTANIE NR 19.

Program ImageReader przetwarzając plik graficzny do postaci edytowalnej, bazuje na technologii

A.	Text to Speech
B.	OBR
C.	Screen Reader
D.	OCR
	Zostaw bez odpowiedzi

Wyjaśnienie poprawnej odpowiedzi:
OCR (optyczne rozpoznawanie znaków) służy do przekształcania obrazu zawierającego tekst (np. skanu) w tekst edytowalny. Dlatego program, który "przetwarza plik graficzny do postaci edytowalnej", bazuje na OCR, a nie na czytniku ekranu ani na syntezie mowy.

Pełne wyjaśnienie:

Technologia OCR (optyczne rozpoznawanie znaków) polega na analizie obrazu, wykrywaniu kształtów liter oraz zamianie ich na znaki tekstowe, które można edytować w edytorze (kopiować, poprawiać, formatować). To właśnie opisuje sformułowanie: "przetwarzając plik graficzny do postaci edytowalnej". Plik graficzny (skan, zdjęcie) sam w sobie nie ma warstwy tekstowej, więc aby uzyskać tekst edytowalny, potrzebne jest rozpoznanie znaków.
Odpowiedź "OCR" jest więc poprawna, bo wskazuje technologię odpowiedzialną za konwersję obraz → tekst.
Pozostałe odpowiedzi dotyczą innych klas narzędzi wspierających dostępność, ale nie wykonują rozpoznawania znaków:
"Screen Reader" to czytnik ekranu. Odczytuje informacje dostępne w interfejsie systemu i aplikacji (np. etykiety, role kontrolek, tekst w polach). Nie "wydobywa" automatycznie tekstu z obrazu, jeśli aplikacja nie udostępnia go jako tekst.
"Text to Speech" (synteza mowy) zamienia już istniejący tekst na dźwięk. To etap "tekst → mowa", a nie "obraz → tekst". W praktyce TTS często działa razem z OCR (najpierw OCR, potem TTS), ale sama synteza mowy nie tworzy tekstu edytowalnego z grafiki.
"OBR" nie jest powszechnie rozpoznawalną nazwą standardowej technologii konwersji obrazu na tekst w tym kontekście. Nawet jeśli skrót bywa używany w innych znaczeniach, nie odpowiada opisowi procesu rozpoznawania znaków z obrazu w typowym ujęciu egzaminacyjnym.
Wskazówka egzaminacyjna: jeśli w treści pojawia się wymóg uzyskania tekstu edytowalnego z pliku graficznego, najczęściej chodzi o OCR. Jeśli mowa o odczytywaniu interfejsu i elementów na ekranie, wtedy chodzi o czytnik ekranu. Jeśli o zamianie tekstu na głos — o syntezę mowy.

Dodatkowe pytania

Dodatkowe pytania (FAQ):

Co to jest OCR i do czego służy w pracy z dokumentami?

OCR to technologia optycznego rozpoznawania znaków, która zamienia obraz (skan, zdjęcie strony) na tekst komputerowy. Dzięki temu treść można kopiować, wyszukiwać, poprawiać błędy i formatować. W tyfloinformatyce ułatwia tworzenie dostępnych wersji materiałów drukowanych.

Jakie są typowe kroki konwersji skanu do tekstu edytowalnego?

Najczęściej: skanowanie lub zdjęcie dokumentu → oczyszczenie obrazu (prostowanie, kontrast) → OCR (rozpoznanie znaków) → korekta błędów rozpoznania → zapis do formatu tekstowego. Im lepsza jakość obrazu, tym mniej poprawek.

Dlaczego screen reader nie zastępuje OCR przy pracy ze skanami?

Czytnik ekranu odczytuje elementy interfejsu i tekst, który aplikacja udostępnia jako tekst. Skan jest zwykle samą grafiką bez warstwy tekstowej, więc screen reader nie ma "czego czytać". OCR dopiero tworzy tekst z obrazu, który później może być czytany przez syntezę mowy.

Co oznacza "tekst edytowalny" w zadaniach o OCR?

To tekst zapisany jako znaki, a nie jako obraz. Można go zaznaczać, kopiować, wyszukiwać, poprawiać literówki, zmieniać czcionkę i strukturę dokumentu. W kontekście OCR chodzi o to, aby wynik nie był tylko obrazkiem strony, lecz materiałem możliwym do dalszego opracowania.

Kiedy warto użyć syntezy mowy po wykonaniu OCR?

Synteza mowy (TTS) jest przydatna, gdy chcesz odsłuchać treść po rozpoznaniu: np. sprawdzić poprawność wyniku lub szybko zapoznać się z tekstem. Ważne: TTS działa na tekście, więc w praktyce często jest kolejnym etapem po OCR, a nie zamiennikiem OCR.

Jakie błędy OCR zdarzają się najczęściej i skąd się biorą?

Typowe błędy to mylenie podobnych znaków (np. 0/O, 1/l), gubienie polskich znaków, błędny podział wyrazów i wierszy. Wynik zależy od jakości skanu (krzywe linie, rozmazanie), czcionki oraz tła. Dlatego po OCR zwykle potrzebna jest korekta i szybka kontrola treści.

Jak poprawić skuteczność OCR na słabym skanie?

Pomaga: zwiększenie kontrastu, usunięcie szumu, wyprostowanie strony (deskew), ustawienie właściwego języka rozpoznawania oraz rozdzielczości skanowania. Warto też unikać zdjęć pod kątem i cieni. Lepszy obraz wejściowy znacząco zmniejsza liczbę błędów w tekście wynikowym.

Czy OCR zawsze rozpozna układ tabel i kolumn poprawnie?

Nie zawsze. OCR może dobrze rozpoznać znaki, ale struktura (tabele, kolumny, nagłówki) bywa odtworzona błędnie, szczególnie w skomplikowanych układach. W praktyce często trzeba ręcznie poprawić formatowanie po rozpoznaniu albo wybrać tryb rozpoznawania układu, jeśli program go oferuje.

Jak odróżnić zadanie o OCR od zadania o czytniku ekranu na egzaminie?

Szukaj słów kluczowych: jeśli jest "skan", "plik graficzny", "zdjęcie" i "tekst edytowalny" — to OCR. Jeśli jest "odczytywanie interfejsu", "nawigacja po elementach", "przyciski, pola, menu" — to czytnik ekranu. Jeśli "zamiana tekstu na głos" — to synteza mowy.

Jakie są najczęstsze pomyłki uczniów w pytaniach o OCR?

Często mylą OCR z syntezą mowy, bo oba rozwiązania "pomagają czytać". Inny błąd to utożsamienie słowa "reader" z czytnikiem ekranu, mimo że pytanie dotyczy konwersji grafiki do tekstu. Pomaga sprawdzanie, czy w treści jest warunek "edytowalny" — to mocna wskazówka na OCR.

info

Około 69% zdających odpowiada poprawnie na to pytanie. średnie

Według specjalistów z branży: "OCR (optyczne rozpoznawanie znaków) służy do przekształcania obrazu zawierającego tekst (np. skanu) w tekst edytowalny."

Źródła:

Wikipedia (PL), "Optyczne rozpoznawanie znaków" — https://pl.wikipedia.org/wiki/Optyczne_rozpoznawanie_znak%C3%B3w - dostęp 2026-03-05
ABBYY, "What is OCR (Optical Character Recognition)?" — https://www.abbyy.com/ocr/what-is-ocr/ - dostęp 2026-03-05
Tesseract OCR, GitHub README — opis działania i zastosowania OCR — https://github.com/tesseract-ocr/tesseract - dostęp 2026-03-05

Materiały:

Dokumentacja i poradniki do programów OCR używanych w edukacji i pracy biurowej
Materiały szkoleniowe z podstaw dostępności cyfrowej (różne technologie wsparcia)
Ćwiczenia praktyczne: skanowanie i rozpoznawanie tekstu z różną jakością obrazu

Aktualizacja pytania: 31.03.2026

LOGOWANIE

KWALIFIKACJA INF10 - CZERWIEC 2019

Dodatkowe pytania

Dodatkowe pytania (FAQ):

Zobacz też: