فایلهای PDF متن کامل که توسط ناشران در اختیار گنجینه کتاب نوسا قرار میگیرند به دو دسته کلی تقسیم میشوند:
1- آنهایی که به صورت تصویری (image) ذخیره شدهاند، امکان جستجوی متنی در این فایلها وجود ندارد.
برای مثال فایل PDF کتاب قانون ادب، در واقع تصویر صفحات کتاب است. این سند غیر قابل جستجو است و نمیتوانیم عبارتی از متن را برای جستجو انتخاب کنیم.
2- آنهایی که به صورت متن هستند. در این گونه فایلها:
الف- اگر عبارتی از متن سند PDF را در کادر جستجوی بالای سند وارد کنیم و عین متن انتخاب شده در کادر جستجو قابل مشاهده باشد، در این فایل امکان جستجوی متنی وجود دارد.
برای نمونه در نسخه PDF متن کتاب پنج راز سلامت و شادابی مغز عبارت کارکرد طبیعی مغز را از متن کپی کرده و در کادر جستجو وارد میکنیم. عبارت در کادر جستجو مشاهده میشود (1)، یعنی دراین فایل امکان جستجوی متنی وجود دارد:
با انجام جستجو به اولین صفحه دارای عبارت کارکرد طبیعی مغز رسیده و آن عبارت را مشاهده میکنیم (2):
با تکرار جستجو تا پایان سند، تمامی صفحات دارای این عبارت بازیابی و مشاهده میشوند.
ب- اگر عبارتی از متن سند PDF را در کادر جستجوی بالای سند وارد کنیم و عین متن انتخاب شده در کادر جستجو قابل مشاهده نباشد، در این فایل هم امکان جستجوی متنی وجود ندارد.
در نمونهی زیر عبارت پیدایش شهرها را از متن انتخاب و کپی میکنیم (1) و در کادر جستجو قرار میدهیم، عبارت جایگذاری شده به دلیل استاندارد نبودن فونت ذخیره شده فارسی در متن اولیه قابل بازیابی نیست و از صورت متنی خارج و حروف و یا شکلهای نامفهوم دیده میشود (2). در واقع این گونه متون هم به صورت تصویری (image) ذخیره شدهاند.
در نمونهی دیگر عبارت بارون را از متن انتخاب و کپی میکنیم و در کادر جستجو قرار میدهیم، عبارت در کادر به صورت حروف و اشکال نامفهوم دیده میشود. در واقع این گونه متون هم به صورت تصویری (image) ذخیره شدهاند.