Начать. Это бесплатно
или Регистрация c помощью Вашего email-адреса
Rocket clouds
Spacy-RU создатель Mind Map: Spacy-RU

1. A: Срочно пишите в Slack. Произойдёт одно из двух: или уже во время написания вы поймёте, как лучше сделать, или мы подскажем. А может, просто поменяемся заданиями. Главное правило -- никогда не стоять на месте: или что-то делаете, или пишете в Slack.

2. A: Одно во многом зависит от другого, но датасеты для них часто различаются

3. 2) Прикиньте ваши возможности и добавьте к нему ожидаемый срок выполнения.

3.1. Если не можете в течении получаса оценить срок выполнения той или иной задачи, пишите в Slack, попробуем вместе.

4. Q: Не получается сделать таск, или не знаю, как лучше сделать

5. Анализ качества работы пайплайнов

6. NER Iter #1

6.1. Find datasets: buriy @ Jun 12

6.2. Train one dataset

6.3. Evaluate results

6.4. Share results

6.5. Compare with other projects

7. POS Iter #1

7.1. Find datasets: buriy

7.2. Train dataset: buriy

7.3. Evaluate results: buriy

7.4. Share results: buriy

7.5. Compare with other projects

8. Syntax Iter #1

8.1. Find datasets: buriy

8.2. Train dataset: buriy

8.3. Evaluate results: buriy

8.4. Share results: buriy

8.5. Compare with other projects

9. Vectors

9.1. Vectors from another project #1

9.1.1. Find datasets

9.1.2. Choose a source project

9.1.3. Write pipeline which will preprocess words to match the source project style

9.1.4. Copy vectors

9.1.5. Evaluate results

9.1.6. Share results

9.2. Own vectors #1

9.2.1. Choose dataset

9.2.2. Train dataset

9.2.3. Evaluate results

9.2.4. Share results

9.2.4.1. (А если я назначаю вам задачку, то я отмечаю её звёздочкой.)

9.2.5. Compare with other projects

10. How to

10.1. 1) Выберите лист дерева в качестве вашей задачи

10.1.1. а) Допишите к пункту ваш никнейм

10.1.2. б) Добавьте к пункту флажок вашего уникального цвета (доп цвета доступны по кнопочке "Icons")

10.2. 3) Действуйте. Не забывайте про fun!

10.3. 4) Готово! Уберите ваши отметки и пометьте пункт как выполненный (бело-зелёной галочкой в кружочке)

11. Идеи и примечания

11.1. Q: Надо ли делать Syntax и POS отдельно?

11.2. Q: Ой, тут ошибка/недоделка/неудобно сделано, как вам об этом сказать?

11.2.1. A: Просто исправьте это сами.

11.3. Q: У меня поменялась оценка сроков

11.3.1. A: Ну поменяйте в документе

11.4. Ожидаемая длина итерации по каждому из белых пунктов -- 1-2 недели. Не бойтесь упрощать задачи, не старайтесь усложнять задачи. Просто отложите более сложную версию на следующую итерацию (и напишите о вашей идее улучшения, когда будете делиться результатами).

11.4.1. Вы можете добавить подзадачи к пункту, который вы делаете. Тогда подпункт, над которым вы сейчас работаете, тоже отметьте вашим флажком.

11.4.2. Полученное качество работы подпроектов отмечаем смайликами. Смайлики показывают, на какие улучшения нужно обратить внимание в первую очередь

12. Общие улучшения spaCy для русского языка

12.1. Примеры готовых пайплайнов для русского языка, штук 5

12.1.1. Токенизация текста: buriy

12.1.2. Улучшенная токенизация текста: drodionova

12.1.3. Задача Sentiment analysis

12.1.4. Задача классификации текстов: Anton

12.1.5. Sense2vec-RU

12.1.6. Много-классовая классификация текста. Реализация примера классификатора textcat в ноутбуке: @Anton ~ Aug 30

12.1.7. (добавьте вашу задачу)

12.2. Ускорение работы пайплайнов

13. Оценка качества (для каждого подпроекта)

13.1. Write quality evaluation pipeline (bash or python code)

13.1.1. POS: dshubenok

13.2. Write instructions to reproduce evaluation

13.2.1. POS: dshubenok

14. Pre-morphology

14.1. Words splitting: drodionova

14.2. Sentences splitting

14.3. Numbers grouping/splitting: drodionova

14.4. Dates grouping/splitting: drodionova

14.5. Quotes normalization: drodionova

14.6. HTML->text preprocessor

14.7. Stop words removal (for some tasks): drodionova

14.8. (Other improvements)

15. Morphology

15.1. Try switching to Mystem

15.2. Improve pymorphy2