Выложил новый релиз пакета
OOoFBTools-1.12:
1. Исправлена ошибка в генераторе сносок - вылет на сортировке сносок.
2. Имправлена КРИТИЧЕСКАЯ(!) ошибка в парсере Конвертера. Если заголовки Глав (стиль Level) состоят из нескольких абзацев, и один из ЭТИХ абзацеы - пустой абзац, то при экспорте абазцы ТАКОГО Заголовка ПОСЛЕ пустого абзаца ТЕРЯЛИСЬ. Файл получался невалидным.
Исправлен парсер.
3. Инструмент "Поиск OCR ошибок в тексте": При нажатии на кнопку Запомнить (дефисное слово), если включена опция "Искать далее после обработки найденного" после запоминания дефисного слова в Словарь поиск продолжается.
4. Инструмент "Поиск OCR ошибок в тексте": Сохранение и восстановление состояния опции "Искать далее после обработки найденного" при закрытии и открытии инструмента.
5. Инструмент "Поиск OCR ошибок в тексте", режим "Поиск слов, в которых абзац разорвал перенос (дефис, тире или минус)".
Добавлен поиск разрыва слова на минусе, тире или дефисе с комбинацией пробелов. Т.е., если после знака переноса стоит один или пробелов, то такие слова тоже находятся. Например: «давным- ¶», «из- ¶», «пересмотре- ¶»
6. Инструмент "Поиск OCR ошибок в тексте", режим "Поиск обрыва предложения на словах, знаках препинания, кавычках и скобках".
Добавлен поиск разрыва предложения на минусе, тире или дефисе с комбинацией пробелов:
Пример текста:
Здесь – разрыв после пробела и тире –¶
А здесь – разрыв после 2-х пробелов, минуса и пробела - ¶
Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).
7. Улучшена работа переопределения стилей для Французской, Немецкой локализаций.
8. Переделан алгоритм генерации секций <section>...</section>. В некоторых случаях форматирование Заголовков стилями Level в произвольном виду приводило к невалидному результату. Теперь Корректно конвертируются структуры вида:
Level1 ... Level5 ...;
Level3 ... Level2 ... Level;
Level3 ... Level3 ... Leve5 ... Level 1, и т.д.
Это особенно актуально для тех, кто конвертирует html-тексты, где часто 1-й Заголовок - стиль Заголовок 6, 2-й - Заголовок 3 и т.д., а пользователю лень отстилизовать Заголовки по уровню вложенности, как в книге, или же просто ошибся в номерации уровней. Или же - это такой замысел создателя fb2-файла.
Теперь все корректно работает - файл получится валидным.
"Стандартного" вида структуры Level1 ... Level2 ... Level3 ... Level1 и т.д. тоже корректно экспортируются, как и раньше.
Теперь конвертер действительно (по крайней мере в секциях) в
ыдает именно то, что вы ему задали.
9. Исправил баг в инструменте "Нумерация выделенных абзацев" - если выделенные абзацы - в самом конце документа, то инструмент зацикливался на последнем абзаце. Исправлено.
10. Расширил в Справке раздел Вопросы - Ответы: Об экспорте обложек; Работа со стилями. Очень важная информация!!! Масса вопросов отпадает!!!
11. Улучшена работа Корректора Текста. Для опции "Собрать разорванные символом ¶ строки абзаца в один абзац". Теперь происходит склейка и тек строк в абзацы, которые разорваны разрвом строк, а не абзацев (BR из html-файлов).
12. Для Windows для Валидатора fb2-файлов и проверки на валидность сгенерированного конвертером fb2-файла внесены изменения по работе с MSLibXML. По идеи, теперь валидация должна работать и на Windows 7. ПРОВЕРЬТЕ, ПОЖАЛУЙСТА!!!
13. Основная форма Конвертера: 1. Возможность загружать и сохранять профиль Автора fb2-файла ПО-УМОЛЧАНИЮ (как было раньше) - кнопки "<<" и ">>" соответственно; 2. Возможность загружать и сохранять профиль Автора fb2-файла В ПРОИЗВОЛЬНЫЙ txt-файл - кнопки "A <<" и ">> A" соответственно.
Т.е., при старте диалога конвертера автоматически загружается профиль Автора fb2-файла ПО-УМОЛЧАНИЮ. Его можно изменить и сохранить. Если же надо загрузить (и (или) сохранить) профиль другого Автора fb2-файла, то используйте кнопки "A <<" и ">> A".
14. Дополнения в Справке.
Сайт программы:
http://code.google.com/p/ooofbtools/Скачать пакет:
http://ooofbtools.googlecode.com/files/ ... s-1.12.zipP.S. Очень нужен совет общественности:В инструменте "Поиск ошибок OCR" можно сделать поиск минуса, тире или дефиса. идущих сразу же после точки или запятой.
Это может быть либо разрыв переноса на знаках пунктуации, либо принятая OCR-программой грязь за минус, тире или дефис.
Вопрос: В какой режим это засунуть - логически вроде бы не подходит ни к одному режиму. Сделать новый, 5-й режим поиска? Тогда как его обозвать?
Что думаете? И надо ли делать отлов этой ситуации?
Подобная ситуация - запятая в понце предложения, вместо точки. Отлавливать? И в какой режим поместить? Может - в отдельный7 Тогда - как его назвать?
P.P.S. Какие еще встречаются ошибки OCR в тексте, отлов которых можно было бы реализовать в инструменте "Поиск ошибок OCR"? Может сделать режим отлова OCR-мусора (точки между пробелами, штрихи и т.д.)? Если да, то что еще считать за мусор?