KWALIFIKACJA PGF5 - STYCZEŃ 2019

PYTANIE NR 12.
Którym akronimem oznacza się zestaw technik wykorzystywanych do rozpoznawania całych tekstów w pliku bitmapowym?
A.
B.
C.
D.
Wyjaśnienie poprawnej odpowiedzi:
OCR (optyczne rozpoznawanie znaków) to zestaw technik służących do automatycznego wykrywania i konwersji tekstu widocznego na obrazie bitmapowym (np. skanie) do postaci edytowalnej. PDF jest formatem pliku, CtP dotyczy przygotowania form drukowych, a CMS zarządzania barwą.

Pełne wyjaśnienie:

OCR to akronim od optycznego rozpoznawania znaków. Oznacza zestaw metod, które analizują obraz rastrowy (bitmapę), wykrywają na nim litery i słowa, a następnie zamieniają je na tekst możliwy do kopiowania, wyszukiwania i edycji. W praktyce poligraficznej i w przygotowalni jest to przydatne np. wtedy, gdy materiał źródłowy jest tylko w postaci skanu lub zdjęcia wydruku, a treść trzeba ponownie złożyć, poprawić lub przenieść do systemu składu.

Odpowiedź "PDF" jest błędna, ponieważ PDF to przede wszystkim format pliku/dokumentu. Plik PDF może zawierać tekst "prawdziwy" (wektorowy) albo tylko obraz strony (skan). Sam PDF nie jest nazwą technik rozpoznawania tekstu w bitmapie — OCR może być co najwyżej zastosowane w pliku PDF, aby dodać warstwę tekstową do skanu.

Odpowiedź "CtP" (Computer to Plate) jest niepoprawna, bo odnosi się do technologii naświetlania/wykonywania form drukowych bezpośrednio z danych cyfrowych. To inny etap procesu i inne narzędzia niż rozpoznawanie znaków w obrazie rastrowym.

Odpowiedź "CMS" jest błędna, ponieważ w poligrafii najczęściej oznacza system zarządzania barwą (Color Management System). CMS dotyczy profili barwnych, konwersji przestrzeni barw i spójności kolorystycznej, a nie analizy obrazu pod kątem liter i konwersji na tekst.

Wskazówka egzaminacyjna: gdy w treści pojawia się "rozpoznawanie całych tekstów" oraz "plik bitmapowy/skan", najbardziej typowym i jednoznacznym skojarzeniem jest właśnie OCR.

Dodatkowe pytania

Dodatkowe pytania (FAQ):
OCR to optyczne rozpoznawanie znaków: techniki, które zamieniają tekst widoczny na skanie/obrazie bitmapowym na tekst edytowalny. W przygotowalni pomaga odzyskać treść z zeskanowanych materiałów, ułatwia korektę, ponowny skład i wyszukiwanie fragmentów w dokumentacji.
Najważniejsze są: rozdzielczość (zbyt niska utrudnia rozpoznanie), kontrast tła i liter, brak poruszenia oraz równe oświetlenie. Szkodzą też kompresja, szum, przekoszenie strony i zbyt ozdobne kroje pisma. Im czystszy bitmapowy obraz, tym mniej błędów OCR.
PDF to format pliku dokumentu, a nie nazwa technik rozpoznawania tekstu. PDF może zawierać skan (sam obraz) albo tekst cyfrowy. Dopiero zastosowanie OCR do skanu w PDF może dodać warstwę tekstową. Dlatego akronimem technik jest OCR, nie PDF.
CtP oznacza przygotowanie form drukowych bezpośrednio z danych komputerowych (naświetlanie płyty). To etap technologii druku i prepressu związany z formą drukową, a nie z analizą obrazu pod kątem liter. OCR dotyczy konwersji skanu na tekst, CtP nie.
W poligrafii CMS to zwykle zarządzanie barwą: praca z profilami, konwersjami przestrzeni barw i kontrolą spójności kolorów między urządzeniami. OCR zajmuje się rozpoznaniem znaków i słów na obrazie. To zupełnie inne zadania: kolor vs treść tekstowa.
OCR stosuje się, gdy archiwum ma być przeszukiwalne: np. skany zleceń, instrukcji, specyfikacji czy korekt. Po OCR można wyszukiwać słowa w treści, kopiować fragmenty i łatwiej porządkować dokumentację. Bez OCR skan pozostaje tylko obrazem.
Najprościej spróbować zaznaczyć myszą fragment tekstu i skopiować go do edytora. Jeśli kopiowanie działa i tekst jest poprawny, PDF ma warstwę tekstową. Jeśli zaznacza się tylko cały obraz strony albo kopiują się "krzaki", prawdopodobnie to skan bez OCR lub z błędnym rozpoznaniem.
Najczęściej działa skojarzenie "plik = PDF" albo "poligrafia = CtP", bez analizy definicji w pytaniu. Inny błąd to mylenie CMS z systemami publikacji treści. Warto czytać, czy pytanie dotyczy obrazu bitmapowego i rozpoznawania tekstu — to kieruje do OCR.
OCR może popełniać błędy przy niskiej jakości skanu, nietypowych fontach, tabelach, łamaniu kolumn, tle z fakturą i przy językach z znakami diakrytycznymi, jeśli ustawienia są złe. Zwykle potrzebna jest korekta po rozpoznaniu, zwłaszcza w materiałach do druku.
Ucz się skrótów przez skojarzenie z funkcją: OCR = tekst z obrazu, CtP = płyta z komputera, CMS = kontrola barwy, PDF = format dokumentu. Ćwicz na przykładach: skan strony, zdjęcie etykiety, plik PDF ze skanem. To pomaga szybko rozpoznać właściwy akronim.
info

To pytanie poprawnie rozwiązuje 77% zdających egzamin. średnio łatwe

W praktyce zawodowej kluczowe jest to, że oCR (optyczne rozpoznawanie znaków) to zestaw technik służących do automatycznego wykrywania i konwersji tekstu widocznego na obrazie bitmapowym (np. skanie) do postaci edytowalnej.

Źródła:

  • Wikipedia: Optical character recognition – https://en.wikipedia.org/wiki/Optical_character_recognition (dostęp: 2026-03-01)
  • Tesseract OCR User Manual (GitHub repo) – https://github.com/tesseract-ocr/tesseract/blob/main/doc/tesseract.1.asc (dostęp: 2026-03-01)
  • Adobe: PDF Reference and specification overview (opis PDF jako formatu dokumentu) – https://opensource.adobe.com/dc-acrobat-sdk-docs/ (dostęp: 2026-03-01)

Materiały:

  • Dokumentacja narzędzi OCR (np. Tesseract) – opis działania i ograniczeń
  • Podstawy grafiki rastrowej: rozdzielczość, kompresja, artefakty skanu
  • Materiały szkoleniowe z digitalizacji i archiwizacji dokumentów w poligrafii

Aktualizacja pytania: 31.03.2026



Aktualizacja pytania: 31.03.2026
📡 Brak połączenia internetowego