Це TikiWiki CMS/Groupware v1.9.11 -Sirius- © 2002–2008 за Громада Tiki Сер 25 of Nov, 2009 [06:32 UTC]
Меню [hide]

Info

друк
Зміст




Передісторія

Історично склалося так, що існує два українських словника для ispell та два для aspell причому обидва варіанти останнім часом майже не супроводжувалися.

Першим джерелом орфографії вільного ПЗ був словник ispell-uk, який після кропіткої роботи на початку 2000-х років отримав дуже розвинену систему афіксів, що давало декілька переваг через нормалізацію словника:
  1. Генерація 10-20 словоформ при додаванні одного слова і декількох прапорців афіксів
  2. Зменшення байтового розміру словника майже на порядок
  3. З'явилися додаткові можливості автоматизовного манипулювання словником за допомогою скриптів

Тоді само словник було декілька раз перевірено іншими програмами перевірки орфографії для відшліфовки правил та очищення словарного запасу.

В той же час почав активно розвиватися aspell, який не підтримував систему афіксів і таким чином для якого напрацювання ispell могли бути використані лише частково, тобто як набір слів. Оскільки розробники ispell-uk не виявили зацікавленості в програмі, яка не могла використати їх роботу, іншою командою було створено альтернативний aspell-uk, в який окрім бази з ispell-uk було додано багато інших слів з різних джерел, а також було створено альтернативний ispell-uk (ispell-uk-a) на цій розширеній базі, але без розвиненої системи правил афіксів.
Пізніше команда ispell-uk також вирішила додати підтримку aspell і словник ispell-uk отримав підгілку aspell-uk-a.
Через деякі непорозуміння та суперечку щодо джерел для словників та підходах до розробки одидві команди деякий час працювали окремо, та з часом обидва проекти уповільнилися майже до нуля.
Причому обидва прокти (ispell-uk + aspell-uk-a та aspell-uk + ispell-uk-a) не мали своїх веб-сторінок, що ще більш ускладнювало вибір для користувачів. Наслідком стало те, що різні дистрибутиви та пакунки ПО використовують різні словники правопису.

Іще однією відмінністю словника ispell-uk на відміну від інших проектів була його ціль: "знаходити якомога більше помилок, а не налічувати якомога більше слів".


нагору

Витоки.

Оскільки aspell версії 0.60 почав підтримувати афікси, а розробка ispell практично зупинилася, виникла ідея взяти за основу більш досконалий словник ispell-uk, зконвертувати його під новий aspell, спробувати об'єднати всі зусилля та продовжити розробку одного словника всіма зацікавленими, пропонуючи уніфіковану базу словника та єдине місце розробки і веб-сторінку.

Спочатку було запропоновано облишити ispell, щоб не утримувати два різних проекти, але був написаний скрипт, який дозволяє створювати правила афіксів для ispell з формату правил для aspell. Крім того початкові файли були переведені в utf-8 і, оскільки ispell підтримує лише 8-бітні кодування та й деякі платформи не мають підтримки utf-8 з українською локаллю, була створена можливість генерувати інші кодування.
Щоб не тягнути старі ганчірки, та дещо спростити проект, було вирішено перегенерувати його заново і залишити старий ispell-uk на старому місці, можливо, обмеживши доступ до нього в режимі тільки для читання.


нагору

Поточний стан.

Таким чином, на поточний момент проект aspell-uk може генерувати три типи словників:
  • aspell-uk
  • myspell-uk
  • ispell-uk
в майже будь-якому вихідному кодуванню (UTF-8, KOI8-U, CP1251 ...).

Словник налічує близько 65000 слів або ~814000 словоформ.

Оскільки останні ispell-uk, aspell-uk та myspell-uk мали версії 0.7, 0.50 та 1.0.2, щоб синхронізувати версію було взято "1.1"
за початкову версію об'днаного проекту.


нагору

Найближчі цілі.

  1. Протестувати систему генерування пакунків rpm (та, можливо, інших), та створити їх для інших платформ
  2. Інтергрувати словник перенесення слів з myspell/OO
  3. Створити кращі умови для інтеграції в OpenOffice? та Mozilla-*
  4. Нормалізувати та додати нові слова з інших іcнуючих словників, якщо це не суперечить ліцензіям.
  5. Завершити роботу над правилами: залишилось декілька випадків іменників та декілька варіантів дієслів, що не підпадають під поточні правила
  6. Додавати нові слова.


нагору

Віддалені цілі.

  1. Створити, наскільки це можливо, автоматизований механізм для перевірки та нормалізації нових слів


нагору

Стратегічні правила.

  1. Ліцензійна чистота вжитих словників (власне, враховуючи, що з інших словників буде братися невелика частина, яка відсутня в aspell-uk, а нові слова будуть проходити досить сильну обробку через перевірку та нормалізацію, це не має бути сильною проблемою).
  2. Висока нормалізація словника.
  3. Притримуватися правила „знаходити якомога більше помилок, а не налічувати якомога більше слів“, якщо є непевність, краще залишити слово поза словником, ніж його додати.

Створений : DalekiyObriy останні зміни: Неділя 25 of September, 2005 [06:14:50 UTC] DalekiyObriy