Начать. Это бесплатно
или регистрация c помощью Вашего email-адреса
Spacy-RU создатель Mind Map: Spacy-RU

1. A: Срочно пишите в Slack. Произойдёт одно из двух: или уже во время написания вы поймёте, как лучше сделать, или мы подскажем. А может, просто поменяемся заданиями. Главное правило -- никогда не стоять на месте: или что-то делаете, или пишете в Slack.

2. A: Одно во многом зависит от другого, но датасеты для них часто различаются

3. 2) Прикиньте ваши возможности и добавьте к нему ожидаемый срок выполнения.

3.1. а) Допишите к пункту ваш никнейм

3.2. Если не можете в течении получаса оценить срок выполнения той или иной задачи, пишите в Slack, попробуем вместе.

4. Q: Не получается сделать таск, или не знаю, как лучше сделать

5. Vectors

5.1. Vectors from another project #1

5.1.1. Find datasets

5.1.2. Choose a source project

5.1.3. Write pipeline which will preprocess words to match the source project style

5.1.4. Copy vectors

5.1.5. Evaluate results

5.1.6. Share results

5.2. Own vectors #1

5.2.1. Choose dataset

5.2.2. Train dataset

5.2.3. Evaluate results

5.2.4. Share results

5.2.4.1. (А если я назначаю вам задачку, то я отмечаю её звёздочкой.)

5.2.5. Compare with other projects

6. How to

6.1. 1) Выберите лист дерева в качестве вашей задачи

6.1.1. б) Добавьте к пункту флажок вашего уникального цвета (доп цвета доступны по кнопочке "Icons")

6.2. 3) Действуйте. Не забывайте про fun!

6.3. 4) Готово! Уберите ваши отметки и пометьте пункт как выполненный (бело-зелёной галочкой в кружочке)

7. Идеи и примечания

7.1. Q: Надо ли делать Syntax и POS отдельно?

7.2. Q: Ой, тут ошибка/недоделка/неудобно сделано, как вам об этом сказать?

7.2.1. A: Просто исправьте это сами.

7.3. Q: У меня поменялась оценка сроков

7.3.1. A: Ну поменяйте в документе

7.4. Ожидаемая длина итерации по каждому из белых пунктов -- 1-2 недели. Не бойтесь упрощать задачи, не старайтесь усложнять задачи. Просто отложите более сложную версию на следующую итерацию (и напишите о вашей идее улучшения, когда будете делиться результатами).

7.4.1. Вы можете добавить подзадачи к пункту, который вы делаете. Тогда подпункт, над которым вы сейчас работаете, тоже отметьте вашим флажком.

7.4.2. Полученное качество работы подпроектов отмечаем смайликами. Смайлики показывают, на какие улучшения нужно обратить внимание в первую очередь

8. Morphology

8.1. Try switching to Mystem

8.2. Improve pymorphy2

9. Анализ качества работы пайплайнов

10. NER Iter #1

10.1. Find datasets: buriy @ Jun 12

10.2. Train one dataset

10.3. Evaluate results

10.4. Share results

10.5. Compare with other projects

11. POS Iter #1

11.1. Find datasets: buriy

11.2. Train dataset: buriy

11.3. Evaluate results: buriy

11.4. Share results: buriy

11.5. Compare with other projects

12. Syntax Iter #1

12.1. Find datasets: buriy

12.2. Train dataset: buriy

12.3. Evaluate results: buriy

12.4. Share results: buriy

12.5. Compare with other projects

13. Общие улучшения spaCy для русского языка

13.1. Примеры готовых пайплайнов для русского языка, штук 5

13.1.1. Токенизация текста: buriy

13.1.2. Улучшенная токенизация текста: drodionova

13.1.3. Задача Sentiment analysis

13.1.4. Задача классификации текстов: Anton

13.1.5. Sense2vec-RU

13.1.6. Много-классовая классификация текста. Реализация примера классификатора textcat в ноутбуке: @Anton ~ Aug 30

13.1.7. (добавьте вашу задачу)

13.2. Ускорение работы пайплайнов

14. Оценка качества (для каждого подпроекта)

14.1. Write quality evaluation pipeline (bash or python code)

14.1.1. POS: dshubenok

14.2. Write instructions to reproduce evaluation

14.2.1. POS: dshubenok

15. Pre-morphology

15.1. Words splitting: drodionova

15.2. Sentences splitting

15.3. Numbers grouping/splitting: drodionova

15.4. Dates grouping/splitting: drodionova

15.5. Quotes normalization: drodionova

15.6. HTML->text preprocessor

15.7. Stop words removal (for some tasks): drodionova

15.8. (Other improvements)